


Tihe 图 灵 程 房 设 计 从 书 _PEARSON | 


量 Sedgewick 之 巨著 ， 与 高 德 纳 TAOCP 一 脉 相 承 
几 十 年 多 次 修订 ， 经 久 不 衰 的 畅销 书 
是 涵盖 所 有 程序 员 必 须 掌 握 的 50 种 算法 


Algorithms Fourth Edition 


(第 4 版 ) 





Robert Sedgewick 
Kevin Wayne 


谢 路 云 译 


[ 美 ] 著 


委 人 民 邮 电 出 版 社 


POSTS & TELECOM PRESS 





法 Algorithms Fourth Edition 
(第 4 版 ) 


本 书 全 面 讲述 算法 和 数据 结构 的 必 备 知识 ， 具 有 以 下 几 大 特色 。 


令 算法 领域 的 经 典 参考 书 

Sedgewick 畅 销 著作 的 最 新 版 ， 反 映 了 经 过 几 十 年 演化 而 成 的 算法 核心 知识 体系 

$ 内 容 全 面 

全 面 论 述 排序 、 搜 索 、 图 处 理 和 字符 串 处 理 的 算法 和 数据 结构 ， 涵 盖 每 位 程序 员 上 应 知 应 会 的 50 种 算法 

$ 全 新 修订 的 代码 

全 新 的 Java 实 现代 码 ， 采 用 模块 化 的 编程 风格 ， 所 有 代码 均 可 供 读者 使 用 

# 与 实际 应 用 相 结合 

在 重要 的 科学 、 工 程 和 商业 应 用 环境 下 探讨 算法 ， 给 出 了 算法 的 实际 代码 ， 而 非 同类 著作 常用 的 伪 代码 

人 富 于 智力 趣味 性 

简明 扼要 的 内 容 ， 用 丰富 的 视 党 元 素 展 示 的 示例 ， 精 心 设计 的 代码 ， 详 尽 的 历史 和 科学 背景 知识 ， 各 种 难度 的 练习 ， 这 一 
切 都 将 使 读者 手 不 释 卷 

$ 科学 的 方法 

用 合适 的 数学 模型 精确 地 讨论 算法 性 能 ， 这 些 模型 是 在 真实 环境 中 得 到 验证 的 

$ 与 网 络 相 结 合 

配套 网 站 algs4,cs.princeton,edu 提 供 了 本 书 内 容 的 摘要 及 相关 的 代码 、 测 试 数据 、 编 程 练习 、 教 学 课件 等 资源 


Www,pearson.com 


图 灵 社 区 : www .ituring.com.cn 

新 浪 微 博 : @ 图 灵 教 育 @ 图 灵 社 区 

反馈 /投稿 /推荐 信箱 : contact@turingbook.com 
热线 (010)51095186 转 604 


出 奸 议 ”计算 机 /计算 机 科学 


人 民 邮 电 出 版 社 网 址 ， www.ptpress.com.cn 








加 图 灵 程 序 设 计 从 书 





委 法 Algorithms Fourth Edition 


(第 4 版 ) 





Robert Sedgewick 
[ 美 ] Kevin Wayne 蔷 


谢 路 云 译 


和信 民 邮电 出 版 社 
北 京 


图 书 在 版 编目 (CC I P ) 数据 


算法 : 第 4 版 / ( 美 ) 塞 奇 威 克 (Sedgewick,R.)， 
( 美 ) 韦 恩 (Wayne,K.) 著 ; 谢 路 云 译 . 一 北京 : 人 民 
邮电 出 版 社 ，2012. 10 

(图 灵 程 序 设 计 从 书 ) 

书 名 原文 : Algorithms，Fourth Edition 

ISBN 978-7-115-29380-0 


1， 名 算 … 卫 ，@ 塞 … @ 韦 … @ 谢 … II， 钙 电子 计 
算 机 一 算法 理论 IV. @TP301.6 


中 国 版 本 图 书馆 CIP 数 据 核 字 (2012) 第 220659 号 


内 容 提要 
本 书 作 为 算法 领域 经 典 的 参考 书 ， 全 面 介绍 了 关于 算法 和 数据 结构 的 必 备 知识 ， 并 特别 针对 排序 、 
搜索 、 图 处 理 和 字符 串 处 理 进 行 了 论述 。 第 4 版 具体 给 出 了 每 位 程序 员 应 知 应 会 的 50 个 算法 ， 提 供 了 实 
际 代码 ， 而 且 这 些 Java 代码 实现 采用 了 模块 化 的 编程 风格 ， 读 者 可 以 方便 地 加 以 改造 。 配 套 网 站 提供 了 
本 书 内 容 的 摘要 及 更 多 的 代码 实现 、 测 试 数据 、 练 习 、 教 学 课件 等 资源 。 
本 书 适 合用 做 大 学 教材 或 从 业者 的 参考 书 。 
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译 者 序 


在 计算 机 领域 , 算法 是 一 个 永恒 的 主题 。 即 使 仅 把 算法 入 门 方 面 的 书 都 摆 出 来 ， 国 内 外 的 加 起 
来 怕 是 能 铺 满 整个 天 安 门 广场 。 在 这 些 书 中 ， 有 几 本 尤其 与 众 不 同 ， 本 书 就 是 其 中 之 一 。 


本 书 是 学 生 的 良 师 。 在 翻译 的 过 程 中 我 曾 无 数 次 感叹 : “要 是 当年 我 能 拥有 这 本 书 那 该 多 好 ! ” 
应 该 说 本 书 是 为 在 校 学 生 量 身 打造 的 。 没 有 数学 基础 ? 没关系 ， 只 要 你 在 高 中 学 过 了 数学 归纳 法 ， 那 
么 书 中 95% 以 上 的 数学 内 容 你 都 可 以 看 得 懂 ， 更 何况 书 中 还 辅 以 大 量 图 例 。 没 学 过 编程 ”没关系 ， 第 
1 章 会 给 大 家 介绍 足够 多 的 Java 知 识 ， 即 使 你 不 是 计算 机 专业 的 学 生 ， 也 不 会 遇 到 困难 。 整 本 书 的 内 
容 编排 循序 渐进 ， 由 易 到 难 ， 前 后 呼应 ， 足 见 作 者 的 良 苦 用 心 。 没 有 比 本 书 更 专业 的 算法 教科 书 了 。 


本 书 是 老师 的 好 帮手 。 如 果 老 师 们 还 只 能 照 本 宣 科 ， 只 能 停留 在 算法 本 身 一 二 三 四 的 阶段 ， 
那 就 已 经 大 大 落后 于 这 个 时 代 了 。 算 法 并 不 仅仅 是 计算 的 方法 ， 探 究 算 法 的 过 程 反映 出 的 是 我 们 对 
这 个 世界 的 认 知 方法 : 是 唯 唯 诺 诺 地 将 课本 当做 圣经 ， 还 是 通过 “实验 一 失败 一 再 实验 ”循环 的 锤 
炼 ? 数学 是 保证 ， 数 据 是 验证 。 本 书 通过 各 种 算法 ， 从 各 个 角度 ， 多 次 说 明了 这 个 道理 ， 这 也 正 是 
第 1 章 是 全 书 内 容 最 多 的 一 章 的 原因 。 和 希望 每 一 位 读者 都 不 要 错过 第 1 章 。 无 论 你 有 没有 编程 基础 ， 
都 会 从 中 得 到 有 益 的 启示 。 


本 书 是 程序 员 的 益友 。 在 工作 了 多 年 之 后 ， 快 速 排序 、 霍 夫 曼 编码 、KMP 等 曾经 熟悉 的 概念 在 你 
脑 中 是 不 是 已 经 凋零 成 了 一 个 个 没有 内 涵 的 名 词 ?9 是 时 候 重新 拾 起 它们 了 。 无 论 是 为 手头 的 工作 寻找 
线索 ， 还 是 为 下 一 份 工 作 努 力 准备 ， 这 些 算法 基础 知识 都 是 你 不 能 跳 过 的 。 本 书 强调 软件 工程 中 的 最 
佳 实践 ， 特 别 适合 已 有 工作 经 验 的 程序 员 朋友 。 所 有 的 算法 都 是 先 有 API， 再 有 实现 ， 之 后 是 证 明 ， 最 
后 是 数据 。 这 种 先 接口 后 实现 、 强 调 测试 的 做 法 ， 无 疑 是 在 工作 中 摸 让 深 打 多 年 的 程序 员 最 熟悉 的 。 


本 书 也 有 一 些 遗 憾 ， 比 如 没有 介绍 动态 规划 这 样 重要 的 思想 。 但 是 瑕 不 掩 玉 ， 它 仍然 是 最 好 的 
和信 门 级 算法 书 。 我 强烈 地 希望 能 够 把 本 书 翻译 成 中 文 ， 但 同时 也 诚 怕 诚 录 ， 如 履 薄 冰 ， 担 心 自己 的 
水 平 不 足以 准确 传达 原文 的 意思 。 翻 译 的 过 程 虽然 辛苦 ， 但 我 觉得 非常 值得 。 感 谢 人 民 邮 电 出 版 社 
图 灵 公 司 给 了 我 这 个 机 会 ， 感 谢 编辑 和 审 稿 专家 的 细心 检查 。 同 时 感谢 我 的 妻子 朱 天 的 全 力 支持 。 
译 者 水 平 有 限 ，bug 在 所 难免 ， 还 请 读者 批评 指正 。 


谢 路 云 
2012.9.17 
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本 书 力图 研究 当今 最 重要 的 计算 机 算法 并 将 一 些 最 基础 的 技能 传授 给 广大 求知 者 。 它 适合 用 做 
计算 机 科学 进 阶 教材 ， 面 向 已 经 熟悉 了 计算 机 系统 并 掌握 了 基本 编程 技能 的 学 生 。 本 书 也 可 用 于 自 
学 ， 或 是 作为 开发 人 员 的 参考 手册 ， 因 为 书 中 实现 了 许多 实用 算法 并 详尽 分 析 了 它们 的 性 能 特点 和 
用 途 。 这 本 书 取材 广泛 ， 很 适合 作为 该 领域 的 人 门 教材 。 


算法 和 数据 结构 的 学 习 是 所 有 计算 机 科学 教学 计划 的 基础 ， 但 它 并 不 只 是 对 程序 员 和 计算 机 
系 的 学 生 有 用 。 任 何 计算 机 使 用 者 都 希望 计算 机 能 运行 得 更 快 一 些 或 是 能 解决 更 大 规模 的 问题 。 本 
书 中 的 算法 代表 了 近 50 年 来 的 大 量 优秀 研究 成 果 ， 是 人 们 工作 中 必 备 的 知识 。 从 物理 中 的 NM 体 模拟 
问题 到 分 子 生物 学 中 的 基因 序列 问题 ， 我 们 描述 的 基本 方法 对 科学 研究 而 言 已 经 必 不 可 少 ; 从 建筑 
建 模 系统 到 模拟 飞行 器 ， 这 些 算法 已 经 成 为 工程 领域 极其 重要 的 工具 ; 从 数据 库 系统 到 互联 网 搜索 
引擎 ， 算 法 已 成 为 现代 软件 系统 中 不 可 或 缺 的 一 部 分 。 这 仅 是 几 个 例子 而 已 ， 随 着 计算 机 应 用 领域 
的 不 断 扩 张 ， 这 些 基础 方法 的 影响 也 会 不 断 扩 大 。 


在 开始 学 习 这 些 基础 算法 之 前 ， 我 们 先 要 熟悉 全 书 中 都 将 会 用 到 的 栈 、 队 列 等 低级 抽象 的 数据 
类 型 。 然 后 依次 研究 排序 、 搜 索 、 图 和 字符 串 方 面 的 基础 算法 。 最 后 一 章 将 会 从 宏观 角度 总 结 全 书 
的 内 容 。 
独特 之 处 


本 书 致力 于 研究 有 实用 价值 的 算法 。 书 中 讲解 了 多 种 算法 和 数据 结构 ， 并 提供 了 大 量 相关 的 信 
息 ， 读 者 应 该 能 有 信心 在 各 种 计算 环境 下 实现 、 调 试 并 应 用 它们 。 本 书 的 特点 涉及 以 下 几 个 方面 。 


算法 书 中 均 有 算法 的 完整 实现 ， 并 讨论 了 程序 在 多 个 样 例 上 的 运行 状况 。 书 中 的 代码 都 是 可 
以 运行 的 程序 而 非 伪 代码 ， 因 此 非常 便于 投入 使 用 。 书 中 程序 是 用 Java 语 言 编写 的 ， 但 其 编程 风格 
方便 读者 使 用 其 他 现代 编程 语言 重用 其 中 的 大 部 分 代码 来 实现 相同 算法 。 


数据 类 型 ”我 们 在 数据 抽象 上 采用 了 现代 编程 风格 ， 将 数据 结构 和 算法 封装 在 了 一 起 。 


应 用 每 一 章 都 会 给 出 所 述 算法 起 到 关键 作用 的 应 用 场景 。 这 些 场景 多 种 多 样 ， 包 括 物理 模拟 
与 分 子 生物 学 、 计 算 机 与 系统 工程 学 ， 以 及 我 们 熟悉 的 数据 压缩 和 网 络 搜 索 等 。 


学 术 性 ”我 们 非常 重视 使 用 数学 模型 来 描述 算法 的 性 能 。 我 们 用 模型 预测 算法 的 性 能 ， 然 后 在 
真实 的 环境 中 运行 程序 来 验证 预测 。 


广度 本 书 讨论 了 基本 的 抽象 数据 类 型 、 排 序 算法 、 搜 索 算 法 、 图 及 字符 串 处 理 。 我 们 在 算法 


前 言 号 VII 


的 讨论 中 研究 数据 结构 、 算 法 设计 范式 、 归 纳 法 和 解 题 模 型 。 这 将 涵盖 20 世 纪 60 年 代 以 来 的 经 典 方 
法 以 及 近年 来 产生 的 新 方法 。 


我 们 的 主要 目标 是 将 今天 最 重要 的 实用 算法 介绍 给 尽 可 能 广泛 的 群体 。 这 些 算法 一 般 都 十 分 巧 
妙 奇特 ，20 行 左右 的 代码 就 足以 表达 。 它 们 展现 出 的 问题 解决 能 力 令 人 叹为观止 。 没 有 它们 ， 创 造 
计算 智能 、 解 决 科学 问题 、 开 发 商业 软件 都 是 不 可 能 的 。 


本 书 网 站 


本 书 的 一 个 亮点 是 它 的 配套 网 站 algs4.cs.princeton.edu。 这 一 网 站 面向 教师 、 学 生 和 专业 人 士 ， 
免费 提供 关于 算法 和 数据 结构 的 丰富 资料 。 


一 份 在 线 大 纲 包含 了 本 书 内 容 的 结构 并 提供 了 链接 ， 浏 览 起 来 十 分 方便 。 


全 部 实现 代码 ” 书 中 所 有 的 代码 均 可 以 在 这 里 找到 ， 且 其 形式 适合 用 于 程序 开发 。 此 外 ， 还 包 
括 算 法 的 其 他 实现 ， 例 如 高 级 的 实现 、 书 中 提 及 的 改进 的 实现 、 部 分 习题 的 答案 以 及 多 个 应 用 场景 的 
客户 端 代码 。 我 们 的 重点 是 用 真实 的 应 用 环境 来 测试 算法 。 

习题 与 答案 ”网 站 还 提供 了 一 些 附加 的 选择 题 (只 需要 一 次 单 击 便 可 获取 答案 ) 、 很 多 算法 应 
用 的 例子 、 编 程 练习 和 答案 以 及 一 些 有 挑战 性 的 难题 。 


动态 可 视 化 ” 书 是 死 的 ， 但 网 站 是 活 的 ， 在 这 里 我 们 充分 利用 图 形 类 演示 了 算法 的 应 用 效果 。 


课程 资料 ”网 站 包含 和 本 书 及 网 上 内 容 对 应 的 一 整套 幻灯 片 ， 以 及 一 系列 编程 作业 、 核 对 表 、 
测试 数据 和 备课 手册 。 


相关 资料 链接 ”网 站 包含 大 量 的 链接 ， 提 供 算法 应 用 的 更 多 背景 知识 以 及 学 习 算法 的 其 他 资源 。 


我 们 希望 这 个 站 点 和 本 书 互 为 补充 。 一 般 来 说 ， 建 议 读者 在 第 一 次 学 习 某 种 算法 或 是 希望 获得 
整体 概念 时 看 书 ， 并 把 网 站 作为 编程 时 的 参考 或 是 在 线 查 找 更 多 信息 的 起 点 。 


作为 教材 

本 书 为 计算 机 科学 专业 进 阶 的 教材 ， 涵 盖 了 这 门 学 科 的 核心 内 容 ， 并 能 让 学 生 充 分 锻炼 编程 、 
定量 推理 和 解决 问题 等 方面 的 能 力 。 一 般 来 说 ， 此 前 学 过 一 门 计算 机 方面 的 先导 课程 就 足 侨 ， 只 要 
熟悉 一 门 现代 编程 语言 并 熟知 现代 计算 机 系统 ， 就 都 能 够 阅读 本 书 。 


虽然 本 书 使 用 Java 实 现 算法 和 数据 结构 ， 但 其 代码 风格 使 得 熟悉 其 他 现代 编程 语言 的 人 也 能 看 
懂 。 我 们 充分 利用 了 Java 的 抽象 性 ( 包括 泛 型 ) ， 但 不 会 依赖 这 门 语言 的 独门 特性 。 


书 中 涉及 的 多 数 数学 知识 都 有 完整 的 讲解 〈 少数 会 有 延伸 阅读 ) ， 因 此 阅读 本 书 并 不 需要 准备 
太 多 数学 知识 ， 不 过 有 一 定 的 数学 基础 当然 更 好 。 应 用 场景 都 来 自 其 他 学 科 的 基础 内 容 ， 同 样 也 在 
书 中 有 完整 介绍 。 


本 书 涉及 的 内 容 是 任何 准备 主 修 计算 机 科学 、 电 气 工程 、 运 筹 学 等 专业 的 学 生 应 了 解 的 基础 知 
识 ， 并且 对 所 有 对 科学 、 数 学 或 工程 学 感 兴趣 的 学 生 也 十 分 有 价值 。 
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背景 介绍 

这 本 书 意 在 接续 我 们 的 一 本 基础 教材 《Java 程 序 设 计 : 一 种 跨 学 科 的 方法 》， 那 本 书 对 计算 机 
领域 做 了 概括 性 介绍 。 这 两 本 书 合 起 来 可 用 做 两 到 三 个 学 期 的 计算 机 科学 入 门 课程 教材 ， 为 所 有 学 
生 在 自然 科学 、 工 程 学 和 社会 科学 中 解决 计算 问题 提供 必 备 的 基础 知识 。 


本 书 大 部 分 内 容 来 自 Sedgewick 的 算法 系列 图 书 。 本 质 上 ， 本 书 和 该 系列 的 第 1 版 和 第 2 版 最 接 
近 ， 但 还 包含 了 作者 多 年 教学 和 学 习 的 经 验 。Sedgewick 的 《C 算 法 (第 3 版 ) 》《C++ 算 法 (第 3 版 ) 》、 
《Java 算 法 〈 第 3 版 ) 》 更 适合 用 做 参考 书 或 是 高 级 课程 的 教材 ， 而 本 书 则 是 专门 为 大 学 一 、 二 年 级 
学 生 设计 的 一 学 期 教材 ， 也 是 最 新 的 基础 人 门 书 或 从 业者 的 参考 书 。 
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本 书 的 目的 是 研究 多 种 重要 而 实用 的 算法 ， 即 适合 用 计算 机 实现 的 解决 问题 的 方法 。 和 算法 关 
系 最 紧密 的 是 数据 结构 ， 即 便于 算法 操作 的 组 织 数据 的 方法 。 本 章 介 绍 的 就 是 学 习 算 法 和 数据 结构 


所 需要 的 基本 工具 。 


首先 要 介绍 的 是 我 们 的 基础 编程 模型 。 本 书 中 的 程序 只 用 到 了 Java 语言 的 一 小 部 分 ， 以 及 我 们 
自己 编写 的 用 于 封装 输入 输出 以 及 统计 的 一 些 库 。1.1 节 总 结 了 相关 的 语法 、 语 言 特性 和 书 中 将 会 


用 到 的 库 。 


接 下 来 我 们 的 重点 是 数据 抽象 并 定义 抽象 数据 类 型 (ADT ) 以 进行 模块 化 编程 。 在 1.2 节 中 我 
们 介绍 了 用 Java 实现 抽象 数据 类 型 的 过 程 ， 包 括 定义 它 的 应 用 程序 编程 接口 ( API ) 然后 通过 Java 


的 类 机 制 来 实现 它 以 供 各 种 用 例 使 用 。 


之 后 ， 作 为 重要 而 实用 的 例子 ， 我 们 将 学 习 三 种 基础 的 抽象 数据 类 型 : 背包、 队列 和 栈 。1.3 
节 用 数组 、 变 长 数组 和 链表 实现 了 背包 、 队 列 和 栈 的 API， 它 们 是 全 书 算法 实现 的 起 点 和 样板 。 
性 能 是 算法 研究 的 一 个 核心 问题 。1.4 节 描 述 了 分 析 算 法 性 能 的 方法 。 我 们 的 基本 做 法 是 科学 
式 的 ， 即 先 对 性 能 提出 假设 ， 建 立 数学 模型 ， 然 后 用 多 种 实验 验证 它们 ， 必 要 时 重复 这 个 过 程 。 
我 们 用 一 个 连通 性 问题 作为 例子 结束 本 章 ， 它 的 解法 所 用 到 的 算法 和 数据 结构 可 以 实现 经 典 的 
! 


union-find 抽象 数据 结构 。 
算法 

编写 一 段 计算 机 程序 一 般 都 是 实现 一 种 
已 有 的 方法 来 解决 某 个 问题 。 这 种 方法 大 多 
和 使 用 的 编程 语言 无 关 一 一 它 适用 于 各 种 计 
算 机 以 及 编程 语言 。 是 这 种 方法 而 非 计 算 机 
程序 本 身 描 述 了 解决 问题 的 步骤 。 在 计算 机 
科学 领域 ， 我 们 用 算法 这 个 词 来 描述 一 种 有 
限 、 确 定 、 有 效 的 并 适合 用 计算 机 程序 来 实 
现 的 解决 问题 的 方法 。 算 法 是 计算 机 科学 的 
基础 ， 是 这 个 领域 研究 的 核心 。 

要 定义 一 个 算法 ， 我们 可 以 用 自然 语言 
描述 解决 某 个 问题 的 过 程 或 是 编写 一 段 程序 
来 实现 这 个 过 程 。 如 发 明 于 2300 多 年 前 的 欧 
几 里 德 算法 所 示 ， 其 目的 是 找到 两 个 数 的 最 
大 公约 数 : 


计算 两 个 非 负 整数 p 和 g 的 最 大 公约 数 : 若 
gq 是 0， 则 最 大 公约 数 为 p。 否 则 ， 将 p 除 以 
9g 得 到 余数 r, 已 和 9 的 最 大 公约 数 即 为 9 和 
r 的 最 大 公约 数 。 


Java 语言 描述 
Public static int gcd(int p, int q) 


if (q == 0) return p; 
int Fe pp% dq 
return gcd(q, r); 


欧 几 里 德 算法 
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如 果 你 不 熟悉 欧 几 里 德 算法 ， 那 么 你 应 该 在 学 习 了 1.1 节 之 后 完成 练习 1.1.24 和 练习 1.1.25。 
在 本 书 中 ， 我 们 将 用 计算 机 程序 来 描述 算法 。 这 样 做 的 重要 原因 之 一 是 可 以 更 容易 地 验证 它们 是 否 
如 所 要 求 的 那样 有 限 、 确 定 和 有 效 。 但 你 还 应 该 意识 到 用 某 种 特定 语言 写 出 一 段 程序 只 是 表达 一 个 
算法 的 一 种 方法 。 数 十 年 来 本 书 中 许多 算法 都 曾 被 表达 为 多 种 编程 语言 的 程序 ， 这 正 说 明 每 种 算法 
都 是 适合 于 在 任何 计算 机 上 用 任何 编程 语言 实现 的 方法 。 

我 们 关注 的 大 多 数 算法 都 需要 适当 地 组 织 数 据 ， 而 为 了 组 织 数 据 就 产生 了 数据 结构 ， 数 据 结 构 
也 是 计算 机 科学 研究 的 核心 对 象 ， 它 和 算法 的 关系 非常 密切 。 在 本 书 中 ,我们 的 观点 是 数据 结构 是 
算法 的 副产品 或 是 结果 , 因此 要 理解 算法 必须 学 习 数 据 结构 。 简 单 的 算法 也 会 产生 复杂 的 数据 结构 ， 
相应 地 ， 复 杂 的 算法 也 许 只 需要 简单 的 数据 结构 。 本 书 中 我 们 将 会 研讨 许多 数据 结构 的 性 质 ， 也 许 
本 书 就 应 该 叫 《 算 法 与 数据 结构 》。 

当 用 计算 机 解决 一 个 问题 时 ， 一 般 都 存在 多 种 不 同 的 方法 。 对 于 小 型 问题 ， 只 要 管用 ， 方 法 的 
不 同 并 没有 什么 关系 。 但 是 对 于 大 型 问题 (或 者 是 需要 解决 大 量 小 型 问题 的 应 用 ) ， 我 们 就 需要 设 
计 能 够 有 效 利用 时 间 和 空间 的 方法 了 。 

学 习 算 法 的 主要 原因 是 它们 能 节约 非常 多 的 资源 ， 甚 至 能 够 让 我 们 完成 一 些 本 不 可 能 完成 的 任 
务 。 在 某 些 需要 处 理 上 百 万 个 对 象 的 应 用 程序 中 ， 设 计 优 良 的 算法 甚至 可 以 将 程序 运行 的 速度 提高 
数 百 万 倍 。 在 本 书 中 我 们 将 在 多 个 场景 中 看 到 这 样 的 例子 。 与 此 相反 ， 花 费 金 钱 和 时 间 去 购置 新 的 
硬件 可 能 只 能 将 速度 提高 十 倍 或 是 百倍 。 无 论 在 任何 应 用 领域 ， 精 心 设计 的 算法 都 是 解决 大 型 问题 
最 有 效 的 方法 。 

在 编写 庞大 或 者 复杂 的 程序 时 ， 理 解 和 定义 问题 、 控 制 问题 的 复杂 度 和 将 其 分 解 为 更 容易 解决 
的 子 问题 需要 大 量 的 工作 。 很 多 时 候 ， 分 解 后 的 子 问题 所 需 的 算法 实现 起 来 都 比较 简单 。 但 是 在 大 
多 数 情况 下 ， 某 些 算 法 的 选择 是 非常 关键 的 ， 因 为 大 多 数 系统 资源 都 会 消耗 在 它们 身上 。 本 书 的 焦 
点 就 是 这 类 算法 。 我 们 所 研究 的 基础 算法 在 许多 应 用 领域 都 是 解决 困难 问题 的 有 效 方法 。 

计算 机 程序 的 共享 已 经 变 得 越 来 越 广泛 ， 尽 管 书 中 涉及 了 许多 算法 ， 我 们 也 只 实现 了 其 中 的 一 
小 部 分 。 例 如 ，Java 库 包 含 了 许多 重要 算法 的 实现 。 但 是 ， 实 现 这 些 基 础 算法 的 简化 版 本 有 助 于 我 
们 更 好 地 理解 、 使 用 和 优化 它们 在 库 中 的 高 级 版 本 。 更 重要 的 是 ， 我 们 经 常 需要 重新 实现 这 些 基础 
算法 ， 因 为 在 全 新 的 环境 中 (无论 是 硬件 的 还 是 软件 的 ) ， 原 有 的 实现 无 法 将 新 环境 的 优势 完全 发 
挥 出 来 。 在 本 书 中 ， 我 们 的 重点 是 用 最 简洁 的 方式 实现 优秀 的 算法 。 我 们 会 仔细 地 实现 算法 的 关键 
部 分 ， 并 尽 最 大 努力 揭示 如 何 进行 有 效 的 底层 优化 工作 。 

为 一 项 任务 选择 最 合适 的 算法 是 困难 的 ， 这 可 能 会 需要 复杂 的 数学 分 析 。 计 算 机 科学 中 研究 这 
种 问题 的 分 支 叫 做 算法 分 析 。 通 过 分 析 ， 我 们 将 要 学 习 的 许多 算法 都 有 着 优秀 的 理论 性 能 ; 而 另 一 
些 我 们 则 只 是 根据 经 验 知道 它们 是 可 用 的 。 我 们 的 主要 目标 是 学 习 典 型 问题 的 各 种 有 效 算法 ， 但 也 
会 注意 比较 不 同 算法 之 间 的 性 能 差异 。 不 应 该 使 用 资源 消耗 情况 未 知 的 算法 ， 因 此 我 们 会 时 刻 关 注 
算法 的 期 望 性 能 。 


本 书 框架 

接 下 来 概述 一 下 全 书 的 主要 内 容 ， 给 出 涉及 的 主题 以 及 本 书 大 致 的 组 织 结构 。 这 组 主题 触及 了 
尽 可 能 多 的 基础 算法 ， 其 中 的 某 些 领域 是 计算 机 科学 的 核心 内 容 ， 通 过 对 这 些 领域 的 深入 研究 ， 我 
们 找 出 了 应 用 广泛 的 基本 算法 ， 而 另 一 些 算法 则 来 自 计算 机 科学 和 相关 领域 比较 前 沿 的 研究 成 果 。 
总 之 ， 本 书 讨论 的 算法 都 是 数 十 年 来 研发 的 重要 成 果 ， 它 们 将 继续 在 快速 发 展 的 计算 机 应 用 中 扮演 
重要 角色 。 


第 1 章 基础 

它 讲 解 了 在 随后 的 章节 中 用 来 实现 、 分 析 和 比较 算法 的 基本 原则 和 方法 ， 包 括 Java 编程 模型 、 
数据 抽象 、 基 本 数据 结构 、 集 合 类 的 抽象 数据 类 型 、 算 法 性 能 分 析 的 方法 和 一 个 案例 分 析 。 
第 2 章 排序 

有 序 地 重新 排列 数组 中 的 元 素 是 非常 重要 的 基础 算法 。 我 们 会 深入 研究 各 种 排序 算法 ,包括 插 
入 排序 、 选 择 排序 、 希 尔 排序 、 快 速 排序 、 归 并 排序 和 堆 排 序 。 同 时 我 们 还 会 讨论 男 外 一 些 算法 ， 
它们 用 于 解决 几 个 与 排序 相关 的 问题 ， 例 如 优先 队列 、 选 举 以 及 归并 。 其 中 许多 算法 会 成 为 后 续 章 
节 中 其 他 算法 的 基础 。 

第 3 章 查找 

从 庞大 的 数据 集中 找到 指定 的 条 目 也 是 非常 重要 的 。 我 们 将 会 讨论 基本 的 和 高 级 的 查找 算法 ， 
包括 二 叉 查 找 树 、 平 衡 查 找 树 和 散 列 表 。 我 们 会 梳理 这 些 方 法 之 间 的 关系 并 比较 它们 的 性 能 。 
第 4 章 图 

图 的 主要 内 容 是 对 象 和 它们 的 连接 ， 连 接 可 能 有 权重 和 方向 。 利 用 图 可 以 为 大 量 重要 而 困难 的 
问题 建 模 ， 因 此 图 算法 的 设计 也 是 本 书 的 一 个 主要 研究 领域 。 我 们 会 研究 深度 优先 搜索 、 广 度 优先 
搜索 、 连 通 性 问题 以 及 若干 其 他 算法 和 应 用 ， 包 括 Kruskal 和 Prim 的 最 小 生成 树 算法 、Dijkstra 和 
Bellman-Ford 的 最 短路 径 算法 。 

第 5 章 字符 串 

字符 串 是 现代 应 用 程序 中 的 重要 数据 类 型 。 我 们 将 会 研究 一 系列 处 理 字符 串 的 算法 ， 首 先是 对 
字符 串 键 的 排序 和 查找 的 快速 算法 ,然后 是 子 字 符 串 查找 、 正 则 表达 式 模式 匹配 和 数据 压缩 算法 。 
此 外 ， 在 分 析 一 些 本 身 就 十 分 重要 的 基础 问题 之 后 ， 这 一 章 对 相关 领域 的 前 沿 话题 也 作 了 介绍 。 
第 6 章 背景 

这 一 章 将 讨论 与 本 书 内 容 有 关 的 若干 其 他 前 沿 研 究 领域 ， 包 括 科学 计算 、 运 筹 学 和 计算 理论 。 
我 们 会 介绍 性 地 讲 一 下 基于 事件 的 模拟 、B 树 、 后 缓 数组、 最 大 流量 问题 以 及 其 他 高 级 主题 ， 以 帮 
助 读者 理解 算法 在 许多 有 趣 的 前 沿 研究 领域 中 所 起 到 的 巨大 作用 。 最 后 ， 我 们 会 讲 一 讲 搜索 问题 、 
问题 转化 和 NP 完全 性 等 算法 研究 的 支柱 理论 ， 以 及 它们 和 本 书 内 容 的 联系 。 

学 习 算 法 是 非常 有 趣 和 令 人 激动 的 ， 因 为 这 是 一 个 历久 弥 新 的 领域 (我 们 学 习 的 绝 大 多 数 算法 
都 还 不 到 “五 十 岁 ”， 有 些 还 是 最 近 才 发 明 的 ， 但 也 有 一 些 算法 已 经 有 数 百年 的 历史 ) 。 这 个 领域 
不 断 有 新 的 发 现 , 但 研究 透彻 的 算法 仍然 是 少数 。 本 书 中 既 有 精巧 、 复 杂 和 高 难度 的 算法 , 也 有 优雅 、 
朴素 和 简单 的 算法 。 在 科学 和 商业 应 用 中 , 我 们 的 目标 是 理解 前 者 并 熟悉 后 者 ， 这 样 才能 掌握 这 些 
有 用 的 工具 并 学 会 算法 式 思 考 ， 以 迎接 未 来 计算 任务 的 挑战 。 


1.1 基础 编程 模型 

我 们 学 习 算 法 的 方法 是 用 Java 编程 语言 编写 的 程序 来 实现 算法 。 这 样 做 是 出 于 以 下 原因 : 

口 程序 是 对 算法 精确 、 优 雅 和 完全 的 描述 ; 

口 可 以 通过 运行 程序 来 学 习 算法 的 各 种 性 质 ; 

口 可 以 在 应 用 程序 中 直接 使 用 这 些 算法 。 

相 比 用 自然 语言 描述 算法 ， 这 些 是 重要 而 巨大 的 优势 。 

这 样 做 的 一 个 缺点 是 我 们 要 使 用 特定 的 编程 语言 , 这 会 使 分 离 算法 的 思想 和 实现 细节 变 得 困难 。 
我 们 在 实现 算法 时 考虑 到 了 这 一 点 ， 只 使 用 了 大 多 数 现代 编程 语言 都 具有 且 能 够 充分 描述 算法 所 必 
需 的 语法 。 

我 们 仅 使 用 了 Java 的 一 个 子 集 。 尽 管 我 们 没有 明确 地 说 明 这 个 子 集 的 范围 ， 但 你 也 会 看 到 我 们 
只 使 用 了 很 少 的 Java 特性 ， 而 且 会 优先 使 用 大 多 数 现代 编程 语言 所 共有 的 语法 。 我 们 的 代码 是 完整 
的 ， 因 此 希望 你 能 下 载 这 些 代码 并 用 我 们 的 测试 数据 或 是 你 自己 的 来 运行 它们 。 

我 们 把 描述 和 实现 算法 所 用 到 的 语言 特性 、 软 件 库 和 操作 系统 特性 总 称 为 基础 编程 模型 。 本 
节 以 及 1.2 节 会 详细 说 明 这 个 模型 ， 相 关内 容 自 成 一 体 ， 主 要 是 作为 文档 供 读者 查阅 ， 以 便 理解 本 
书 的 代码 。 我 们 的 男 一 本 入 门 级 的 书籍 4n Introduction to Programming in Java: An Interdisciplinary 
Approach 也 使 用 了 这 个 模型 。 

作为 参考 ， 图 1.1.1 所 示 的 是 一 个 完整 的 Java 程序 。 它 说 明了 我 们 的 基础 编程 模型 的 许多 基本 
特点 。 在 讨论 语言 特性 时 我 们 会 用 这 段 代 码 作为 例子 ， 但 可 以 先 不 用 考虑 代码 的 实际 意义 〈 它 实现 
了 经 典 的 二 分 查找 算法 ， 并 在 白 名 单 过 滤 应 用 中 对 算法 进行 了 检验 ， 请 见 1.1.10 节 ) 。 我 们 假设 你 
具备 某 种 主流 语言 编程 的 经 验 ， 因 此 你 应 该 知道 这 段 代 码 中 的 大 多 数 要 点 。 图 中 的 注释 应 该 能 够 解 
答 你 的 任何 疑问 。 因 为 图 中 的 代码 某 种 程度 上 反映 了 本 书 代码 的 风格 ， 而 且 对 各 种 Java 编程 惯例 和 

语言 构造 ， 在 用 法 上 我 们 都 力求 一 致 ， 所 以 即使 是 经 验 丰富 的 Java 程序 员 也 应 该 看 一 看 。 


1.1.1 Java 程序 的 基本 结构 
一 段 Java 程序 ( 类 ) 或 者 是 一 个 静态 方法 (函数 ) 库 ， 或 者 定义 了 一 个 数据 类 型 。 要 创建 静态 
方法 库 和 定义 数据 类 型 ,会 用 到 下 面 五 种 语法 ,它们 是 Java 语 言 的 基础 ,也 是 大 多 数 现代 语言 所 共有 的 。 
口 原始 数据 类 型 : 它们 在 计算 机 程序 中 精确 地 定义 整数 、 浮 点 数 和 布尔 值 等 。 它 们 的 定义 包括 
取 值 范围 和 能 够 对 相应 的 值 进行 的 操作 ， 它 们 能 够 被 组 合 为 类 似 于 数学 公式 定义 的 表达 式 。 
口 语句 : 语句 通过 创建 变量 并 对 其 赋值 、 控 制 运行 流程 或 者 引发 副作用 来 进行 计算 。 我 们 会 使 
用 六 种 语句 : 声明、 赋值、 条件、 循环、 调用 和 返回 。 
口 数组 : 数组 是 多 个 同 种 数据 类 型 的 值 的 集合 。 
口 静态 方法 : 静态 方法 可 以 封装 并 重用 代码 ， 使 我 们 可 以 用 独立 的 模块 开发 程序 。 
口 字符 串 : 字符 串 是 一 连 串 的 字符 ，Java 内 置 了 对 它们 的 一 些 操作 。 
口 标准 输入 /输出 : 标准 输入 输出 是 程序 与 外 界 联系 的 桥梁 。 
口 数据 抽象 : 数据 抽象 封装 和 重用 代码 , 使 我 们 可 以 定义 非 原始 数据 类 型 , 进而 支持 面向 对 象 编程 。 
我 们 将 在 本 节 学 习 前 五 种 语法 ， 数 据 抽象 是 下 一 节 的 主题 。 
运行 Java 程序 需要 和 操作 系统 或 开发 环境 打交道 。 为 了 清晰 和 简洁 ， 我 们 把 这 种 输入 命令 执行 
程序 的 环境 称 为 虚拟 终端 。 请 登录 本 书 的 网 站 去 了 解 如 何 使 用 虚拟 终端 ， 或 是 现代 系统 中 许多 其 他 
高 级 的 编程 开发 环境 的 使 用 方法 。 
在 例子 中 ，BinarySearch 类 有 两 个 静态 方法 rank() 和 main() 。 第 一 个 方法 rank() 含有 四 条 
语句 : 两 条 声明 语句 , 一 条 循环 语句 ( 该 语句 中 又 有 一 条 赋值 语句 和 两 条 条 件 语 句 ) 和 一 条 返回 语句 。 


1.1 基础 编程 模型 


第 二 个 方法 main() 包含 三 条 语句 : 一 条 声明 语句 、 一 条 调用 语句 和 一 个 循环 语句 (该 语句 中 又 包 
含 一 条 赋值 语句 和 一 条 条 件 语 句 ) 。 

要 执行 一 个 Java 程序 ， 首 先 需要 用 javac 命令 编译 它 ， 然 后 再 用 java 命令 运行 它 。 例 如 ， 要 
运行 BinarySearch， 首 先 要 输入 javac BinarySearch.java( 这 将 生成 一 个 叫 BinarySearch.class 
的 文件 ， 其 中 含有 这 个 程序 的 Java 字 节 码 ) ; 然后 再 输入 java BinarySearch (接着 是 一 个 白 名 
单 文件 名 ) 把 控制 权 移交 给 这 段 字 节 码 程序 。 为 了 理解 这 段 程序 ， 我 们 接 下 来 要 详细 介绍 原始 数据 
类 型 和 表达 式 ， 各 种 Java 语句 、 数 组 、 静 态 方法 、 字 符 串 和 输入 输出 。 


导入 一 个 Java 库 (请 见 1.1.6.8 节 ) 
import java.util .Arrays; | 代码 文件 名 必须 是 BinarySearch.java 
(请 见 1.1.6.5 节 ) 
public class BinarySearch 参数 变量 
所 








静态 方法 〈 请 见 1.1.6.1 闻 ) 


public static int rank(int i 
{ ee RR 


ys 全 i 
—— 人 int 1 = 03° 返回 什 参数 类 型 
i = a.length - 1; 


wiie (lo <= hi) 表达 式 (请 见 1.1.2 节 ) 


int mid =|lo + (hi - 10) / 2; 
循环 语句 (请 i (key < afmid]) hi = mid - 1; 


见 1.1.3.4 节 ) else if (key > a[mid]) lo = mid + 1; 
else return mid; 


return -1; 
} 下 ~ 返回 语句 


系统 调用 : main() 




















单元 测试 用 例 (请 见 1.1.6.7 节 ) 


public static won main(String[] args) 


t 
没有 返回 值 ， 只 有 副作用 (请 见 1.1.6.3 节 ) 
int[] whitelist = In.readInts(args[0]); 


























调用 Java 库 一 个 
方法 〈 请 见 1.1.6.8 节 ) 
调用 我 们 的 标准 库 中 的 
ee 
int key = StdInreadInt OO; i “调用 本 地 方法 
条 件 语句 (请 if (CrankCkey, whitelist) == -1) i ee 
见 1.1.3.3 节 ) StdOut.printin(key); 和 
} 
辽 久 
} 


系统 将 "white1ist.txt" 作 
为 参数 传递 给 main( 


命令 行 (请 见 1.1.9.1 节 ) 
文件 名 ， 即 args[0] 


% java BinarySearch largeW.txt < largeT.txt 


一 一 ~ 499569 
984875 重 定向 后 向 StdIn 输 入 
的 文件 〈 请 见 1.1.9.5 节 ) 


StdOut 的 输出 
(请 见 1.1.9.2 节 ) 


图 1.1. 1 Java 程序 及 其 命令 行 的 调用 
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1.1.2 ”原始 数据 类 型 与 表达 式 

数据 类 型 就 是 一 组 数据 和 对 其 所 能 进行 的 操作 的 集合 。 首 先 考虑 以 下 4 种 Java 语言 最 基本 的 原 
始 数 据 类 型 . 

口 整 型 ， 及 其 算术 运算 符 (int ) ; 

口 浮 点 型 ， 及 其 算术 运算 符 (double); 

口 布尔 型 ， 它 的 值 {true，false} 及 其 逻辑 操作 (boolean ) ; 

口 字符 型 ， 它 的 值 是 你 能 够 输入 的 英文 字母 数字 字符 和 符号 (char ) 。 

接 下 来 我 们 看 看 如 何 指明 这 些 类 型 的 值 和 对 这 些 类 型 的 操作 。 

Java 程序 控制 的 是 用 标识 符 命名 的 变量 。 每 个 变量 都 有 自己 的 类 型 并 存储 了 一 个 合法 的 值 。 在 
Java 代码 中 ， 我 们 用 类 似 数学 表达 式 的 表达 式 来 实现 对 各 种 类 型 的 操作 。 对 于 原始 类 型 来 说 ， 我 们 
用 标识 符 来 引用 变量 ， 用 +、-、*、/ 等 运算 符 来 指定 操作 ， 用 字面 量 ,例如 1 或 者 3.14 来 表示 
值 , 用 形 如 (x+2.236)/2 的 表达 式 来 表示 对 值 的 操作 。 表 达 式 的 目的 就 是 计算 某 种 数据 类 型 的 值 。 
表 1.1.1 对 这 些 基本 内 容 进 行 了 说 明 。 

表 1.1.1 Java 程序 的 基本 组 成 








术 语 例 子 定 义 
原始 数据 类 型 ”int double boolean char 一 组 数据 和 对 其 所 能 进行 的 操作 的 集合 ( Java 语言 内 置 ) 
标识 符 a abc Ab$ a_b ab123 lo hi 由 字母 、 数 字 、 下 划 线 和 $ 组 成 的 字符 串 ， 首 字符 不 能 是 
数字 
变量 [任意 标识 符 ] 表示 某 种 数据 类 型 的 值 
运算 符 人 表示 某 种 数据 类 型 的 运算 
字面 量 int 1 0 二 人 2 值 在 源 代码 中 的 表示 
double 2.0 1.0e-15 3.14 
boolean true false 
char "a ee 9 Mm 
表达 式 int lo + (hi - lo) / 2 字面 量 、 变 量 或 是 能 够 计算 出 结果 的 一 串 字 面 量 、 变 量 和 
double 1.0e-15 * 七 运算 符 的 组 合 
boolean lo <= hi 


只 要 能 够 指定 值 域 和 在 此 值 域 上 的 操作 ， 就 能 定义 一 个 数据 类 型 。 表 1.1.2 总 结 了 Java 的 
int、double、boolean 和 char 类 型 的 相关 信息 。 许 多 现代 编程 语言 中 的 基本 数据 类 型 和 它们 都 
很 相似 。 对 于 int 和 double 来 说 ， 这 些 操作 是 我 们 熟悉 的 算数 运算 ; 对 于 boolean 来 说 则 是 逻辑 
运算 。 需 要 注意 的 重要 一 点 是 ，+、-、*、/ 都 是 被 重 载 过 的 一 一 根据 上 下 文 ， 同样 的 运算 符 对 不 
同类 型 会 执行 不 同 的 操作 。 这 些 初 级 运算 的 关键 性 质 是 运算 产生 的 数据 的 数据 类 型 和 参与 运算 的 数 
据 的 数据 类 型 是 相同 的 。 这 也 意味 着 我 们 经 常 需要 处 理 近 似 值 ， 因 为 很 多 情况 下 由 表达 式 定 义 的 准 
确 值 并 非 参 与 表达 式 运 算 的 值 。 例 如 ，5/3 的 值 是 1 而 5.0/3.0 的 值 是 1.66666666666667， 两 者 
都 很 接近 但 并 不 准确 地 等 于 5/3。 下 表 并 不 完整 ， 我 们 会 在 本 节 最 后 的 答疑 部 分 中 讨论 更 多 运算 符 
和 偶尔 需要 考虑 到 的 各 种 异常 情况 。 


表 1.1.2 Java 中 的 原始 数据 类 型 


型 :二 典型 表达 式 
类 型 值 域 运 算 符 表达 式 值 
int -2” 至 +23-1 之 间 的 整 + (加 ) 早生 -时 8 
数 (32 位 , 二 进 制 补 码 ) -( 减 ) 5 电 2 
*( 乘 ) 5 * 3 15 
/( 除 ) 5 / 3 1 
5%3 2 
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( 续 ) 
二 典型 表达 式 
类 型 值 域 运 算 符 表 达 式 值 
double 双 精 度 实数 (64 位， + (加 ) 3.141 - 0.03 $111 
IEEE 754 标准 ) -( 减 ) 2.0 - 2.0e-7 1.9999998 
*(〔 乘 ) 100 * 0.015 1.5 
/( 除 ) 6.02e23 / 2.0 3.01e23 
boolean true 或 false && (与 ) true && false false 
11 (或 ) false || true true 
! ( 非 ) !false true 
和 ( 异 或 ) true A true false 
char 字符 (16 位 ) (算术 运算 符 , 但 很 少 使 用 ) 


1.1.2.1 ”表达 式 

如 表 1.1.2 所 示 ,Java 使 用 的 是 中 组 表达 式 : 一 个 字面 量 ( 或 是 一 个 表达 式 ), 紧 接 着 是 一 个 运算 符 ， 
再 接着 是 另 一 个 字面 量 (或 者 男 一 个 表达 式 ) 。 当 一 个 表达 式 包含 一 个 以 上 的 运算 符 时 ， 运 算 符 的 
作用 顺序 非常 重要 ， 因 此 Java 语言 规范 约定 了 如 下 的 运算 符 优先 级 : 运算 符 * 和 / (以 及 %) 的 优 
先 级 高 于 + 和 - ( 优先 级 越 高 ， 越 早 运 算 ) ; 在 逻辑 运算 符 中 ，! 拥有 最 高 优先 级 ， 之 后 是 &&， 接 
下 来 是 11。 一般 来 说 , 相同 优先 级 的 运算 符 的 运算 顺序 是 从 左 至 右 。 与 在 正常 的 算数 表达 式 中 一 样 ， 
使 用 括号 能 够 改变 这 些 规则 。 因 为 不 同 语言 中 的 优先 级 规则 会 有 些许 不 同 ， 我 们 在 代码 中 会 使 用 括 
号 并 用 各 种 方法 努力 消除 对 优先 级 规则 的 依赖 。 
1.1.2.2 ”类 型 转换 

如 果 不 会 损失 信息 ， 数 值 会 被 自动 提升 为 高 级 的 数据 类 型 。 例 如 ， 在 表达 式 1+2.5 中 ，1 会 被 
转换 为 浮 点 数 1.0， 表 达 式 的 值 也 为 double 值 3.5。 转 换 指 的 是 在 表达 式 中 把 类 型 名 放 在 括号 里 
将 其 后 的 值 转换 为 括号 中 的 类 型 。 例 如 ，(Cint)3.7 的 值 是 3 而 (double)3 的 值 是 3.0。 需 要 注意 
的 是 将 浮 点 型 转换 为 整 型 将 会 截断 小 数 部 分 而 非 四 舍 五 和 人， 在 复杂 的 表达 式 中 的 类 型 转换 可 能 会 很 
复杂 ， 应 该 小 心 并 尽量 少 使 用 类 型 转换 ， 最 好 是 在 表达 式 中 只 使 用 同一 类 型 的 字面 量 和 变量 。 
1.1.2.3 ”比较 

下 列 运算 符 能 够 比较 相同 数据 类 型 的 两 个 值 并 产生 一 个 布尔 值 : 相等 (==) 、 不 等 (!=) 、 小 
于 (<) 、 小 于 等 于 (<=) 、 大 于 (>) 和 大 于 等 于 (>= ) 。 这 些 运算 符 被 称 为 混合 类 型 运算 符 ， 因 
为 它们 的 结果 是 布尔 型 ， 而 不 是 参与 比较 的 数据 类 型 。 结 果 是 布尔 型 的 表达 式 被 称 为 布尔 表达 式 。 
我 们 将 会 看 到 这 种 表达 式 是 条 件 语句 和 循环 语句 的 重要 组 成 部 分 。 
1.1.2.4 ”其 他 原始 类 型 

Java 的 整 型 能 够 表示 2” 个 不 同 的 值 ， 用 一 个 32 位 二 进 制 即 可 表示 (虽然 现在 的 许多 计算 机 有 
64 位 二 进 制 ， 但 整 型 仍然 是 32 位 ) 。 与 此 相似 ， 浮 点 型 的 标准 规定 为 64 位 。 这 些 大 小 对 于 一 般 应 
用 程序 中 使 用 的 整数 和 实数 已 经 足够 了 。 为 了 提供 更 大 的 灵活 性 ，Java 还 提供 了 其 他 五 种 原始 数据 
类 型 : 

口 64 位 整数 ， 及 其 算术 运算 符 (1ong); 

口 16 位 整数 ， 及 其 算术 运算 符 (short); 

口 16 位 字符 ， 及 其 算术 运算 符 (char); 

口 8 位 整数 ， 及 其 算术 运算 符 (byte); 

口 32 位 单 精度 实数 ， 及 其 算术 运算 符 (float)。 
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在 本 书 中 我 们 大 多 使 用 int 和 double 进行 算术 运算 ， 因 此 我 们 在 此 不 会 再 详细 讨论 其 他 类 似 
的 数据 类 型 。 


1.1.3 ”语句 

Java 程序 是 由 语句 组 成 的 。 语 名 能 够 通过 创建 和 操作 变量 、 对 变量 赋值 并 控制 这 些 操作 的 执行 
流程 来 描述 运算 。 语 句 通常 会 被 组 织 成 代码 段 ， 即 花 括 号 中 的 一 系列 语句 。 

口 声明 语句 ; 创建 某 种 类 型 的 变量 并 用 标识 符 为 其 命名 。 

口 赋值 语句 ; 将 ( 由 表达 式 产 生 的 ) 某 种 类 型 的 数值 赋予 一 个 变量 。Java 还 有 一 些 隐 式 赋值 的 

语法 可 以 使 某 个 变量 的 值 相 对 于 当前 值 发 生变 化 ， 例 如 将 一 个 整 型 值 加 1。 

口 条 件 语句 : 能 够 简单 地 改变 执行 流程 一 一 根据 指定 的 条 件 执行 两 个 代码 段 之 一 。 

口 循环 语句 : 更 彻底 地 改变 执行 流程 一 一 只 要 条 件 为 真 就 不 断 地 反复 执行 代码 段 中 的 语句 。 

口 调用 和 返回 语句 : 和 静态 方法 有 关 ( 见 1.1.6 节 ) , 是 改变 执行 流程 和 代码 组 织 的 另 一 种 方式 。 

程序 就 是 由 一 系列 声明 、 赋 值 、 条 件 、 循 环 、 调 用 和 返回 语句 组 成 的 。 一 般 来 说 代码 的 结构 都 
是 谱 套 的 : 一 个 条 件 语句 或 循环 语句 的 代码 段 中 也 能 包含 条 件 语句 或 是 循环 语句 。 例 如 ，rank0) 
中 的 while 循环 就 包含 一 个 话语 句 。 接 下 来 ， 我 们 逐个 说 明 各 种 类 型 的 语句 。 
1.1.3.1 声明 语句 

声明 语句 将 一 个 变量 名 和 一 个 类 型 在 编译 时 关联 起 来 。Java 需要 我 们 用 声明 语句 指定 变量 的 名 
称 和 类 型 。 这 样 ， 我 们 就 清楚 地 指明 了 能 够 对 其 进行 的 操作 。Java 是 一 种 强 类 型 的 语言 ， 因 为 Java 
编译 器 会 检查 类 型 的 一 致 性 (例如 ， 它 不 会 允许 将 布尔 类 型 和 浮 点 类 型 的 变量 相 乘 ) 。 变 量 可 以 声 
明 在 第 一 次 使 用 之 前 的 任何 地 方 一 一 一 般 我 们 都 在 首次 使 用 该 变量 的 时 候 声 明 它 。 变 量 的 作用 域 就 
是 定义 它 的 地 方 ， 一 般 由 相同 代码 段 中 声明 之 后 的 所 有 语句 组 成 。 
1.1.3.2 ”赋值 语句 

赋值 语句 将 ( 由 一 个 表达 式 定义 的 ) 某 个 数据 类 型 的 值 和 一 个 变量 关联 起 来 。 在 Java 中 ， 当 我 
们 写 下 c=a+b 时 ， 我们 表达 的 不 是 数学 等 式 ， 而 是 一 个 操作 ， 即 令 变 量 c 的 值 等 于 变量 a 的 值 与 变 
量 b 的 值 之 和 。 当 然 ， 在 赋值 语句 执行 后 ， 从 数学 上 来 说 c 的 值 必然 会 等 于 atb， 但 语句 的 目的 是 
改变 c 的 值 (如果 需要 的 话 ) 。 赋 值 语句 的 左 侧 必须 是 单个 变量 ， 右 侧 可 以 是 能 够 得 到 相应 类 型 的 
值 的 任意 表达 式 。 
1.1.3.3 ”条件 语 和 名 

大 多 数 运算 都 需要 用 不 同 的 操作 来 处 理 不 同 的 输入 。 在 Java 中 表达 这 种 差异 的 一 种 方法 是 if 
语句 : 


if (<boolean expression>) { <block statements> } 
这 种 描述 方式 是 一 种 叫做 模板 的 形式 记 法 ， 我 们 偶尔 会 使 用 这 种 格式 来 表示 Java 的 语法 。 尖 括号 
(<> ) 中 的 是 我 们 已 经 定义 过 的 语法 ， 这 表示 我 们 可 以 在 指定 的 位 置 使 用 该 语法 的 任意 实例 。 在 这 
里 ，<boolean expression> 表示 一 个 布尔 表达 式 ， 例 如 一 个 比较 操作 。<block statements> 表 
示 一 段 Java 语句 。 我 们 也 可 以 给 出 <boolean expression> 和 <block statements> 的 形式 定义 ， 
不 过 我 们 不 想 深入 这 些 细节 。if 语句 的 意义 不 言 自明 : 当 且 仅 当 布尔 表达 式 的 值 为 真 (true) 时 代 
码 段 中 的 语句 才 会 被 执行 。 以 下 if-else 语句 能 够 在 两 个 代码 段 之 间作 出 选择 : 


if (<boolean expression>) { <block statements> } 
else { <block statements> } 
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1.1.3.4 ”循环 语句 

许多 运算 都 需要 重复 。Java 语言 中 处 理 这 种 计算 的 基本 语句 的 格式 是 : 

while (<boolean expression>) { <block statements> } 
while 语句 和 if 语句 的 形式 相似 ( 只 是 用 while 代替 了 if ) ,但 意义 大 有 不 同 。 当 布尔 表达 式 的 
值 为 假 ( false ) 时 , 代码 什么 也 不 做 ; 当 布尔 表达 式 的 值 为 真 (true ) 时 , 执行 代码 段 ( 和 if 一 样 ) ， 
然后 再 次 检查 布尔 表达 式 的 值 ， 如 果 仍 然 为 真 ， 再 次 执行 代码 段 。 如 此 这 般 ， 只 要 布尔 表达 式 的 值 
为 真 ， 就 继续 执行 代码 段 。 我 们 将 循环 语句 中 的 代码 段 称 为 循环 体 。 
1.1.3.5 break 与 continue 语句 

有 些 情况 下 我 们 也 会 需要 比 基 本 的 if 和 while 语句 更 加 复杂 的 流程 控制 。 相 应 地 ，Java 支持 
在 while 循环 中 使 用 另外 两 条 语句 : 

口 break 语句 ， 立 即 从 循环 中 退出 ; 

口 continue 语句 ， 立 即 开始 下 一 轮 循环 。 

本 书 很 少 在 代码 中 使 用 它们 ( 许多 程序 员 从 来 都 不 用 ) ， 但 在 某 些 情况 下 它们 的 确 能 够 大 大 简 
化 代码 。 


1.1.4 简便 记 法 

程序 有 很 多 种 写法 ， 我 们 追求 清晰 、 优 雅 和 高 效 的 代码 。 这 样 的 代码 经 常会 使 用 以 下 这 些 广 为 
流传 的 简便 写法 (不 仅仅 是 Java， 许 多 语言 都 支持 它们 ) 。 
1.1.4.1 声明 并 初始 化 

可 以 将 声明 语句 和 赋值 语句 结合 起 来 ， 在 声明 ( 创建 ) 一 个 变量 的 同时 将 它 初始 化 。 例 如 ， 
int i = 1; 创建 了 名 为 i 的 变量 并 赋予 其 初始 值 1。 最 好 在 接近 首次 使 用 变量 的 地 方 声明 它 并 将 
其 初始 化 (为 了 限制 它 的 作用 域 ) 。 
1.1.4.2” 隐 式 赋 值 

当 希 望 一 个 变量 的 值 相对 于 其 当前 值 变化 时 ， 可 以 使 用 一 些 简便 的 写法 。 

口 递增 /递减 运算 符 ，++i; 等 价 于 i=i+1; 且 表 达 式 为 i+1;。 类 似 地 ，--i; 等 价 于 i=i- 
1;i++;。 和 i--; 的 意思 相同 ， 只 是 表达 式 的 值 为 i 的 值 。 

口 其 他 复合 运算 符 ， 在 赋值 语句 中 将 一 个 二 元 运算 符 写 在 等 号 之 前 ， 等 价 于 将 左边 的 变量 放 在 
等 号 右边 并 作为 第 一 个 操作 数 。 例 如 ，i/=2; 等 价 于 i=i/2;。 注 意 , i += 1; 等 价 于 i = 
i++ 13 (以 及 ++i;) 。 

1.1.4.3 ” 单 语句 代码 段 

如 果 条 件 或 循环 语句 的 代码 段 只 有 一 条 语句 ， 代 码 段 的 花 括 号 可 以 省 略 。 
1.1.4.4 for 语句 

很 多 循环 的 模式 都 是 这 样 的 : 初始 化 一 个 索引 变量 ， 然 后 使 用 while 循环 并 将 包含 索引 变量 的 
表达 式 作为 循环 的 条 件 ，while 循环 的 最 后 一 条 语句 会 将 索引 变量 加 1。 使 用 Java 的 for 语句 可 以 
更 紧凑 地 表达 这 种 循环 : 

for (<initialize>; <boolean expression>; <increment>) 


<block statements> 


除了 几 种 特殊 情况 之 外 ， 这 段 代码 都 等 价 于 : 


<initialize>; 
while (<boolean expression>) 
<block statements> 


<increment>; 


} 
我 们 将 使 用 for 语句 来 表示 对 这 种 初始 化 一 递增 循环 用 法 的 支持 。 
表 1.1.3 总 结 了 各 种 Java 语句 及 其 示例 与 定义 。 


表 1.1.3 Java 语句 


语 句 示 例 定 义 

声明 语句 Wk 让 创建 一 个 指定 类 型 的 变量 并 用 标识 符 
double c; 命名 

赋值 语句 a=b+3; 将 某 一 数据 类 型 的 值 赋予 一 个 变量 
discriminant = b * b -~ 4i:0 * €s 

声明 并 初始 化 int 1 = 1; 在 声明 时 赋予 变量 初始 值 
double c = 3.14159265; 

隐 式 赋值 ++i TT 束 
1 += 1; 

条 件 语句 (if ) if (x < 0) x = -x; 根据 布尔 表达 式 的 值 执行 一 条 语句 

条 件 语句 (if-else) if (x > y) max = Xi 根据 布尔 表达 式 的 值 执行 两 条 语句 中 
else max = y; 的 一 条 

循环 语句 ( while ) int Vv = 0; 执行 语句 ， 直 至 布尔 表达 式 的 值 变 为 
ly <= N 假 (false) 

V = gy 


double t = c; 
while (Math.abs(t - c/t) > le-15*t) 
t= (C/E FD /20 


循环 语句 ( for ) for (int 1 = 1; i <= Ni i++) while 语句 的 简化 版 
Sum += 1.0/i; 
for (Cint 1 = 0; i <= Ni i++) 
StdOut.printin(C2*Math.PI*i/N); 


调用 语句 int key = StdIn.readInt(); 调用 男 一 方法 (请 见 1.1.6.2 节 ) 
返回 语句 return false; : 从 方法 中 返回 (请 见 1.1.6.3 节 ) 
1.1.5 ”数组 


数组 能 够 顺序 存储 相同 类 型 的 多 个 数据 。 除 了 存储 数据 ,我们 也 希望 能 够 访问 数据 。 访 问 数组 
中 的 某 个 元 素 的 方法 是 将 其 编号 然后 索引 。 如 果 我 们 有 N 个 值 ， 它 们 的 编号 则 为 0 至 N-1。 这 样 对 
于 0 到 NM-1l 之 间 任 意 的 1， 我 们 就 能 够 在 Java 代码 中 用 a[i] 唯一 地 表示 第 i 个 元 素 的 值 。 在 Java 
中 这 种 数组 被 称 为 一 维 数组 。 
1.1.5.1 创建 并 初始 化 数组 

在 Java 程序 中 创建 一 个 数组 需要 三 步 : 

口 声明 数组 的 名 字 和 类 型 ; 

口 创建 数组 ; 

口 初始 化 数组 元 素 。 

在 声明 数组 时 ， 需 要 指定 数组 的 名 称 和 它 含 有 的 数据 的 类 型 。 在 创建 数组 时 ， 需 要 指定 数组 的 
长 度 ( 元 素 的 个 数 ) 。 例 如 , 在 以 下 代码 中 ,“ 完 整 模式 ”部 分 创建 了 一 个 有 N 个 元 素 的 double 数组 ， 
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所 有 的 元 素 的 初始 值 都 是 0.0。 第 一 条 语句 是 数组 的 完整 模式 声明 数组 
声明 ， 它 和 声明 一 个 相应 类 型 的 原始 数据 类 型 变量 double[] a; 创建 数组 
Se a = new double[N]; 

十 分 相似 ， 只 有 类 型 名 之 后 的 方 括号 说 明 我 们 声明 人 a ss 

Ns or (int 1 = 0y 1 < NI 1++) 
的 是 一 个 数组 。 第 二 条 语句 中 的 关键 字 new 使 Java AT 0 
创建 了 这 个 数组 。 我 们 需要 在 运行 时 明确 地 创建 数 。 各 fe 初始 化 数组 
组 的 原因 是 Java 编译 器 在 编译 时 无 法 知道 应 该 为 数 double[] a = new double[N]; 


组 预 留 多 少 空间 ( 对 于 原始 类 型 则 可 以 ) 。for 语 
名 初始化 了 数组 的 N 个 元 素 , 将 它们 的 值 置 为 0.0。 声明 初始 化 


在 代码 中 使 用 数组 时 ， 一 定 要 依次 声明 、 创 建 并 初 IntL] 8 hy 的 和 
6 化 数组 。 忽 略 了 其 中 的 任何 一 步 都 是 很 常见 的 编 声明 、 创 建 并 初始 化 一 个 数组 
程 错误 。 


1.1.5.2 ”简化 写法 

为 了 精简 代码 ， 我 们 常常 会 利用 Java 对 数组 默认 的 初始 化 来 将 三 个 步 又 合 为 一 条 语句 ， 即 上 例 
中 的 简化 写法 。 等 号 的 左 侧 声明 了 数组 ， 等 号 的 右 侧 创建 了 数组 。 这 种 写法 不 需要 for 循环 ， 因 为 
在 一 个 Java 数组 中 double 类 型 的 变量 的 默认 初始 值 都 是 0.0， 但 如 果 你 想 使 用 不 同 的 初始 值 ， 那 
么 就 需要 使 用 for 循环 了 。 数 值 类 型 的 默认 初始 值 是 0， 布尔 型 的 默认 初始 值 是 false。 例 子 中 的 
第 三 种 方式 用 花 括号 将 一 列 由 逗号 分 隔 的 值 在 编译 时 将 数组 初始 化 。 
1.1.5.3 ”使 用 数组 

典型 的 数组 处 理 代码 请 见 表 1.1.4。 在 声明 并 创建 数组 之 后 ， 在 代码 的 任何 地 方 都 能 通过 数组 
名 之 后 的 方 括号 中 的 索引 来 访问 其 中 的 元 素 。 数 组 一 经 创建 ， 它 的 大 小 就 是 固定 的 。 程 序 能 够 通过 
a.length 获取 数组 a[] 的 长 度 ， 而 它 的 最 后 一 个 元 素 总 是 a[a.1ength - 1]。Java 会 自动 进行 边 
界 检查 一 一 如 果 你 创建 了 一 个 大 小 为 N 的 数组 ， 但 使 用 了 一 个 小 于 0 或 者 大 于 N-1 的 索引 访问 它 ， 
程序 会 因为 运行 时 抛 出 Array0ut0fBoundsException 异常 而 终止 。 


表 1.1.4 典型 的 数组 处 理 代码 


任 务 实现 (代码 片段 ) 
找 出 数组 中 最 大 的 元 素 double max = a[0]; 


for (int i1 = 1; i < a.length; i++) 
if (a[i] > max) max = a[i]; 


计算 数组 元 素 的 平均 值 int N = a.length; 
double sum = 0.0; 
for (int 1 = 0; 1 < Ni i++) 
sum += a[i]; 
double average = Sum / N; 


复制 数组 int N = a.length; 
double[] b = new double[N]; 
for (Cint i1 = 0; i < Ni i++) 
b[i] = a[i]; 
颠倒 数组 元 素 的 顺序 int N = a.length; 
for (Cint i = 0; i < N/2; i++) 
入 


double temp = a[i]; 
a[i] = a[N-1-i]; 
a[N-i-1] = temp; 
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( 续 ) 
任 。 委 实现 (代码 片段 ) 
矩阵 相 乘 ( 方 阵 ) int N = a.length; 
af[r][] * br[][] = <c[]j[] double[][] c = new double[N][N]; 


for (int i = 0; i < N; i++) 
for (int j = 0; j < N; j++) 
{ // 计 算 行 1 和 列 j 的 点 乘 
for (int k = 0; k < N; k++) 
c[ij[j] += a[i] [kj]*b[k][j]; 


1.1.5.4 起 别名 

请 注意 ， 数 组 名 表示 的 是 整个 数组 一 如 果 我 们 将 一 个 数组 变量 赋予 另 一 个 变量 ， 那 么 两 个 变 
量 将 会 指向 同一 个 数组 。 例 如 以 下 这 段 代 码 : 

int[] a = new int[N]; 

aj] = 1234; 

int[] bs a: 

b[i] = 5678; // a[i] 的 值 也 会 变 成 5678 
这 种 情况 叫做 起 别名 ,有 时 可 能 会 导致 难以 察觉 的 问题 ,如 果 你 是 想 将 数组 复制 一 份 ,那么 应 该 声明 、 
创建 并 初始 化 一 个 新 的 数组 ， 然 后 将 原 数 组 中 的 元 素 值 挨个 复制 到 新 数组 ， 如 表 1.1.4 的 第 三 个 例 
子 所 示 。 
1.1.5.5 ”二 维 数组 

在 Java 中 二 维 数组 就 是 一 维 数组 的 数组 。 二 维 数组 可 以 是 参差 不 齐 的 (元 素数 组 的 长 度 可 以 不 
一 致 ) ,但 大 多 数 情 况 下 (根据 合适 的 参数 M 和 NN) 我 们 都 会 使 用 MxN， 即 M 行 长 度 为 入 的 数 
组 的 二 维 数组 (也 可 以 称 数组 含有 NN 列 ) 。 在 Java 中 访问 二 维 数组 也 很 简单 。 二 维 数组 a[] [] 的 
第 i 行 第 j 列 的 元 素 可 以 写作 a[i] [j] 。 声 明 二 维 数组 需要 两 对 方 括 号 。 创 建 二 维 数 组 时 要 在 类 型 
名 之 后 分 别 在 方 括号 中 指定 行 数 以 及 列 数 ， 例 如 : 

double[][] a = new double[M] [N] ; 
我 们 将 这 样 的 数组 称 为 Mx N 的 数组 。 我 们 约定 ， 第 一 维 是 行 数 ， 第 二 维 是 列 数 。 和 一 维 数组 一 样 ， 
Java 会 将 数值 类 型 的 数组 元 素 初始 化 为 0， 将 布尔 型 的 数组 元 素 初始 化 为 false。 默 认 的 初始 化 对 
二 维 数组 更 有 用 ， 因 为 可 以 节约 更 多 的 代码 。 下 面 这 段 代码 和 刚才 只 用 一 行 就 完成 创建 和 初始 化 的 
语句 是 等 价 的 : 


double[][] a; 
a = new double[M] [N] ; 
for (Cint i1 = 0; 1 < M; i++) 
for (int j = 0; j < N; j++) 
a[iJ][j] = 0.0; 


在 将 二 维 数组 初始 化 为 0 时 这 段 代 码 是 多 余 的 ,但 是 如 果 想 要 初始 化 为 其 他 值 ， 我 们 就 需要 同 
套 的 for 循环 了 。 


1.1.6 ”静态 方法 


本 书 中 的 所 有 Java 程序 要 么 是 数据 类 型 的 定义 ( 详 见 1.2 节 ) ,要 么 是 一 个 静态 方法 库 。 在 许 
多 语言 中 ， 静 态 方法 被 称 为 函数 ， 因 为 它们 和 数学 函数 的 性 质 类 似 。 静 态 方法 是 一 组 在 被 调用 时 会 
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被 顺序 执行 的 语句 。 修 饰 符 static 将 这 类 方法 和 1.2 节 的 实例 方法 区 别 开 来 。 当 讨论 两 类 方法 共 
有 的 属性 时 我 们 会 使 用 不 加 定语 的 方法 一 词 。 
1.1.6.1 静态 方法 

方法 封装 了 由 一 系列 语句 所 描述 的 运 ”签名 





i i 
算 。 方 法 需要 参数 ( 某 种 数据 类 型 的 值 ) 并 所 as ei 
根据 参数 计算 出 某 种 数据 类 型 的 返回 值 ( 例 pubTie static la gdouble el) 






如 数学 函数 的 结果 ) 或 者 产生 某 种 副作用 ( 例 { 

如 打印 一 个 值 ) 。BinarySearch 中 的 静态 函 局 部 if (c < 0) return Double.NaN; 
数 rank() 是 前 者 的 一 个 例子 ;main() 则 是 变量 opTe en | 
后 者 的 一 个 例子 。 每 个 静态 方法 都 是 由 签名 函数 体 一 WT (Math.abs(t - c/t)| > err * +t) 
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(关键 字 public static 以 及 函数 的 返回 值 ， i 
方法 名 以 及 一 串 各 种 类 型 的 参数 ) 和 函数 体 } = ee 
返回 语 < 
( 即 包含 在 花 括号 中 的 代码 ) 组 成 的 ， 如 图 sl 
1.1.2 所 示 。 静 态 函 数 的 例子 请 见 表 1.1.5。 图 1.1.2 静态 方法 解析 
表 1.1.5 ”典型 静态 方法 的 实现 
任 务 实 现 
计算 一 个 整数 的 绝对 值 public static int abs(int x) 
站 
if (x < 0) return -x; 
else return x; 
3 
计算 一 个 浮 点 数 的 绝对 值 public static double abs(double x) 
{ 
if (x < 0.0) return -x; 
else return x; 
3 
判定 一 个 数 是 否 是 素数 public static boolean isPrimeCint N) 
{ 


if (N < 2) return false; 

for (Cint 1 = 2; 1*1 <= NI 1++) 
if (N % i == 0) return false; 

return true; 


计算 平方 根 (牛顿 迭代 法 ) public static double sqrt(double c) 
{ 


if (c < 0) return Double.NaN; 

double err = le-15; 

double 七 = c; 

while (Math.abs(t - c/t) > err * +t) 
t= (Cc/t 4+ t) / 2.0; 

return t; 


} 


计算 直角 三 角形 的 斜 边 public static double hypotenuse(double a, double b) 
{ return Math.sqrt(a*a + b*b); } 


计算 调和 级 数 ( 请 见 表 1.4.5) ”public static double HCint N) 
{ 


double sum = 0.0; 
for (Cint i = 1; 1 <= Ni i++) 
sum += 1.0 / i; 


return sum; 
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1.1.6.2 ”调用 静态 方法 
调用 静态 方法 的 方法 是 写 出 方法 名 并 在 后 面 的 括号 中 列 出 参数 值 ， 用 逗号 分 隔 。 当 调用 是 表达 
式 的 一 部 分 时 ,方法 的 返回 值 将 会 蔡 代 表达 式 中 的 方法 调用 。 例 如 ，BinarySearch 中 调用 rank 0) 
返回 了 一 个 int 值 。 仅 由 一 个 方法 调用 和 一 个 分 号 组 成 的 语句 一 般 用 于 产生 副作用 。 例 如 ， 
BinarySearch 的 main() 函数 中 对 系统 方法 Arrays.sortQ 的 调用 产生 的 副作用 ， 是 将 数组 中 的 所 
有 条 目 有 序 地 排列 。 调 用 方法 时 ， 它 的 参数 变量 将 被 初始 化 为 调用 时 所 给 出 的 相应 表达 式 的 值 。 返 
22 | 回 语句 将 结束 静态 方法 并 将 控制 权 交还 给 调用 者 。 如 果 静 态 方法 的 目的 是 计算 某 个 值 ， 返 回 语句 应 
23 | 该 指定 这 个 值 ( 如果 这 样 的 静态 方法 在 执行 完 所 有 的 语句 之 后 都 没有 返回 语句 ， 编 译 器 会 报错 ) 。 
1.1.6.3 ”方法 的 性 质 
对 方法 所 有 性 质 的 完整 描述 超出 了 本 书 的 范畴 ， 但 以 下 几 点 值得 一 提 。 
口 方法 的 参数 按 值 传递 : 在 方法 中 参数 变量 的 使 用 方法 和 局 部 变量 相同 ， 唯 一 不 同 的 是 参数 变 
量 的 初始 值 是 由 调用 方 提供 的 。 方 法 处 理 的 是 参数 的 值 ， 而 非 参 数 本 身 。 这 种 方式 产生 的 
结果 是 在 静态 方法 中 改变 一 个 参数 变量 的 值 对 调用 者 没有 影响 。 本 书 中 我 们 一 般 不 会 修改 
参数 变量 。 值 传递 也 意味 着 数组 参数 将 会 是 原 数组 的 别名 ( 见 1.1.5.4 节 ) 一 一 方法 中 使 用 
的 参数 变量 能 够 引用 调用 者 的 数组 并 改变 其 内 容 ( 只 是 不 能 改变 原 数组 变量 本 身 ) 。 例 如 ， 
Arrays.sort() 将 能 够 改变 通过 参数 传递 的 数组 的 内 容 ， 将 其 排序 。 
口 方法 名 可 以 被 重 载 : 例如 ，Java 的 Math 包 使 用 这 种 方法 为 所 有 的 原始 数值 类 型 实现 了 
Math.abs()、Math.min() 和 Math.max() 因数 。 重 载 的 另 一 种 常见 用 法 是 为 函数 定义 两 个 
版 本 ， 其 中 一 个 需要 一 个 参数 而 另 一 个 则 为 该 参数 提供 一 个 默认 值 。 
口 方法 只 能 返回 一 个 值 ， 但 可 以 包含 多 个 返回 语句 : 一 个 Java 方法 只 能 返回 一 个 值 ， 它 的 类 
型 是 方法 签名 中 声明 的 类 型 。 静 态 方 法 第 一 次 执行 到 一 条 返回 语句 时 控制 权 将 会 回 到 调用 代 
码 中 。 尽 管 可 能 存在 多 条 返回 语句 ， 任 何 静 态 方法 每 次 都 只 会 返回 一 个 值 ， 即 被 执行 的 第 一 
条 返回 语句 的 参数 。 
口 方法 可 以 产生 副作用 : 方法 的 返回 值 可 以 是 void， 这 表示 该 方法 没有 返回 值 。 返 回 值 为 
void 的 静态 函数 不 需要 明确 的 返回 语句 ， 方 法 的 最 后 一 条 语句 执行 完毕 后 控制 权 将 会 返回 
给 调用 方 。 我 们 称 void 类 型 的 静态 方法 会 产生 副作用 (接受 输入 、 产 生 输 出 、 修 改 数组 或 
者 改变 系统 状态 ) 。 例 如 ， 我 们 的 程序 中 的 静态 方法 mainQ 的 返回 值 就 是 void， 因为 它 
的 作用 是 向 外 输出 。 技 术 上 来 说 ， 数 学 方法 的 返回 值 都 不 会 是 void ( Math.random() 虽然 
不 接受 参数 但 也 有 返回 值 ) 。 
2.1 节 所 述 的 实例 方法 也 拥有 这 些 性 质 ， 尽 管 两 者 在 副作用 方面 大 为 不 同 。 
1.1.6.4 ”递归 
方法 可 以 调用 自己 ( 如果 你 对 递归 概念 感到 奇怪 ， 请 完成 练习 1.1.16 到 练习 1.1.22 ) 。 例 如 ， 
下 面 给 出 了 BinarySearch 的 rankQ 方法 的 另 一 种 实现 。 我 们 会 经 常 使 用 递归 ， 因 为 递归 代码 比 
相应 的 非 递归 代码 更 加 简洁 优雅 、 易 懂 。 下 面 这 种 实现 中 的 注释 就 言 简 意 凡 地 说 明了 代码 的 作用 。 
我 们 可 以 用 数学 归纳 法 证 明 这 段 注 释 所 解释 的 算法 的 正确 性 。 我 们 会 在 3.1 节 中 展开 这 个 话题 并 为 
二 分 查找 提供 一 个 这 样 的 证 明 。 





口 递归 总 有 一 个 最 简单 的 情况 一 一 方法 的 第 一 条 语句 总 是 一 个 包含 return 的 条 件 语句 。 
口 递归 调用 总 是 去 尝试 解决 一 个 规模 更 小 的 子 问题 ， 这 样 递归 才能 收敛 到 最 简单 的 情况 。 在 下 
面 的 代码 中 ， 第 四 个 参数 和 第 三 个 参数 的 差 值 一 直 在 缩小 。 
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口 递归 调用 的 父 问 题 和 尝试 解决 的 子 问题 之 间 不 应 该 有 交集 。 在 下 面 的 代码 中 ， 两 个 子 问题 各 
自 操作 的 数组 部 分 是 不 同 的 。 


public static int rank(int key, int[] a) 
{ return rank(key, a, 0, a.length - 1); } 


public static int rankCint key, int[] a, int 1o, int hi) 
{ // 如 果 key 存 在 于 a[] 中 ， 它 的 索引 不 会 小 于 10 且 不 会 大 于 hi 


if (lo > hi) return -1; 
Tntiimid = To mm hi TO) 7 23 


i (key < a[mid]) return rank(key, a, 10o, mid - 1); 
else if (key > a[mid]) return rank(key, a, mid + 1, hi); 
else return mid; 
} 
二 分 查找 的 递归 实现 


违背 其 中 任意 一 条 都 可 能 得 到 错误 的 结果 或 是 低 效 的 代码 ( 见 练习 1.1.19 和 练习 1.1.27) ,而 
坚持 这 些 原 则 能 写 出 清晰 、 正 确 且 容易 评估 性 能 的 程序 。 使 用 递归 的 另 一 个 原因 是 我 们 可 以 使 用 数 
学 模型 的 来 估计 程序 的 性 能 。 我 们 会 在 3.2 节 的 二 分 查找 以 及 其 他 几 个 地 方 分 析 这 个 问题 。 
1.1.6.5 “基础 编程 模型 

静态 方法 库 是 定义 在 一 个 Java 类 中 的 一 组 静态 方法 。 类 的 声明 是 public class 加 上 类 名 ， 以 
及 用 花 括号 包含 的 静态 方法 。 存 放 类 的 文件 的 文件 名 和 类 名 相同 ， 扩 展 名 是 .java。Java 开发 的 基本 
模式 是 编写 一 个 静态 方法 库 (包含 一 个 main() 方法 ) 来 完成 一 个 任务 。 输 入 java 和 类 名 以 及 一 系 
列 字符 串 就 能 调用 类 中 的 mainQ 方法 ， 其 参数 为 由 输入 的 字符 串 组 成 的 一 个 数组 。mainQ 的 最 后 
一 条 语句 执行 完毕 之 后 程序 终止 。 在 本 书 中 ， 当 我 们 提 到 用 于 执行 一 项 任务 的 Java 程序 时 ,我 们 指 
的 是 用 这 种 模式 开发 的 代码 ( 可 能 还 包括 对 数据 类 型 的 定义 ， 如 1.2 节 所 示 ) 。 例 如 ，BinarySearch 
就 是 一 个 由 两 个 静态 方法 rank() 和 main() 组 成 的 Java 程序 ， 它 的 作用 是 将 输入 中 所 有 不 在 通过 
命令 行 指定 的 白 名 单 中 的 数字 打印 出 来 。 
1.1.6.6 ”模块 化 编程 

这 个 模型 的 最 重要 之 处 在 于 通过 静态 方法 库 实现 了 模块 化 编程 。 我 们 可 以 构造 许多 个 静态 方法 
库 (模块 ) ， 一 个 库 中 的 静态 方法 也 能 够 调用 另 一 个 库 中 定义 的 静态 方法 。 这 能 够 带 来 许多 好 处 : 

口 程序 整体 的 代码 量 很 大 时 ， 每 次 处 理 的 模块 大 小 仍然 适中 ; 

口 可 以 共享 和 重用 代码 而 无 需 重新 实现 ; 

口 很 容易 用 改进 的 实现 替换 老 的 实现 ; 

口 可 以 为 解决 编程 问题 建立 合适 的 抽象 模型 ; 

口 缩小 调试 范围 ( 请 见 1.1.6.7 节 关 于 单元 测试 的 讨论 ) 。 

例如 ，BinarySearch 用 到 了 三 个 独立 的 库 ， 即 我 们 的 StdOut 和 StdIn 以 及 Java 的 Arrays， 而 这 
三 个 库 又 分 别 用 到 了 其 他 的 库 。 
1.1.6.7 单元 测试 

Java 编程 的 最 佳 实践 之 一 就 是 每 个 静态 方法 库 中 都 包含 一 个 main() 函数 来 测试 库 中 的 所 有 方 
法 (有些 编程 语言 不 支持 多 个 main() 方法 ， 因 此 不 支持 这 种 方式 ) 。 恰 当 的 单元 测试 本 身 也 是 很 
有 挑战 性 的 编程 任务 。 每 个 模块 的 main0) 方法 至 少 应 该 调用 模块 中 的 其 他 代码 并 在 某 种 程度 上 保 


证 它 的 正确 性 。 随 着 模块 的 成 熟 ， 我们 可 以 将 main() 方法 作为 一 个 开发 用 例 ， 在 开发 过 程 中 用 它 
来 测试 更 多 的 细节 ; 也 可 以 把 它 编 成 一 个 测试 用 例 来 对 所 有 代码 进行 全 面 的 测试 。 当 用 例 越 来 越 复 
杂 时 ， 我 们 可 能 会 将 它 独立 成 一 个 模块 。 在 本 书 中 ， 我们 用 mainQ 来 说 明 模 块 的 功能 并 将 测试 用 
例 留 做 练习 。 
1.1.6.8 ”外 部 库 
我 们 会 使 用 来 自 4 个 不 同类 型 的 库 中 的 静态 方法 ,重用 每 种 库 代 码 的 方式 都 稍 有 不 同 。 它 们 大 
多 都 是 静态 方法 库 ， 但 也 有 部 分 是 数据 类 型 的 定义 并 包含 了 一 些 静态 方法 。 
口 系统 标准 库 java.lang.*: 这 其 中 包括 Math 库 ， 实 现 了 常用 的 数学 函数 ; Integer 和 Double 库 ， 
能 够 将 字符 串 转 化 为 int 和 double 值 ; String 和 StringBuilder 库 ， 我 们 稍 后 会 在 本 节 和 第 
5 章 中 详细 讨论 ; 以 及 其 他 一 些 我 们 没有 用 到 的 库 。 
口 导入 的 系统 库 ， 例 如 java.utils.Arrays: 每 个 标准 的 Java 版 本 中 都 含有 上 于 个 这 种 类 型 的 库 ， 
不 过 本 书 中 我 们 用 到 的 并 不 多 。 要 在 程序 的 开头 使 用 import 语句 导 人 才能 使 用 这 些 库 (我 
们 也 是 这 样 做 的 ) 。 
口 本 书 中 的 其 他 库 : 例如 ， 其 他 程序 也 可 以 使 用 BinarySearch 的 rankQ 方法 。 要 使 用 这 些 库 ， 
请 在 本 书 的 网 站 上 下 载 它们 的 源 代码 并 放 入 你 的 工作 目录 中 。 
口 我 们 为 本 书 ( 以 及 我 们 的 男 一 本 入 门 教材 4m Introduction ”系统 标准 库 


to programming in Java: An Interdisciplinary Approach ) 开 Math 
发 的 标准 库 Std*: 我 们 会 在 下 面 简要 地 介绍 这 些 库 ， 它 es 
们 的 源 代码 和 使 用 方法 都 能 够 在 本 书 的 网 站 上 找到 。 String 
要 调用 另 一 个 库 中 的 方法 ( 存放 在 相同 或 者 指定 的 目录 中 ， ts 
或 是 一 个 系统 标准 库 ， 或 是 在 类 定义 前 用 import 语 句 导 入 的 。” 导入 的 系统 库 
库 ) ， 我 们 需要 在 方法 前 指定 库 的 名 称 。 例 如 ，BinarySearch 的 。 javaiuril Arrays 
main() 方法 调用 了 系统 库 java.utils.Arrays 的 sort() 方法 ， 我 Sd 
们 的 库 StdIn 中 的 readInts 0 方法 和 StdOut 库 中 的 print1nQO StdOut 
StdDraw 
i StdRandom 
我 们 自己 及 他 人 使 用 模块 化 方式 编写 的 方法 库 能 够 极 大 地 扩 StdStats 
展 我 们 的 编程 模型 .除了 在 Java 的 标准 版 本 中 可 用 的 所 有 库 之 外 ， | 


网 上 还 有 成 千 上 万 各 种 用 途 的 代码 库 。 为 了 将 我 们 的 编程 模型 眼 。 “含有 静态 方法 的 数据 类 型 的 定义 
制 在 一 个 可 挖 范围 之 内 ， 以 将 精力 集中 在 算法 上 ， 我 们 只 会 使 用 本 书 使 用 的 含有 静态 方法 的 库 
以 下 所 示 的 方法 库 ， 并 在 1.1.7 节 中 列 出 了 其 中 的 部 分 方法 。 


1.1.7 API 


模块 化 编程 的 一 个 重要 组 成 部 分 就 是 记录 库 方法 的 用 法 并 供 其 他 人 参考 的 文档 。 我 们 会 统一 使 
用 应 用 程序 编程 接口 ( API) 的 方式 列 出 本 书 中 使 用 的 每 个 库 方 法 名 称 、 签 名 和 简短 的 描述 。 我 们 
用 用 例 来 指 代 调用 另 一 个 库 中 的 方法 的 程序 ， 用 实现 描述 实现 了 某 个 API 方法 的 Java 代码 。 
1.1.7.1 举例 

在 表 1.1.6 的 例子 中 ， 我 们 用 java.lang 中 Math 库 常用 的 静态 方法 说 明 API 的 文档 格式 。 

这 些 方法 实现 了 各 种 数学 函数 一 一 它们 通过 参数 计算 得 到 某 种 类 型 的 值 (random() 除外 ， 它 
没有 对 应 的 数学 函数 ， 因 为 它 不 接受 参数 ) 。 它 们 的 参数 都 是 double 类 型 目 返回 值 也 都 是 double 
类 型 ， 因 此 可 以 将 它们 看 做 double 数据 类 型 的 扩展 一 一 这 种 扩展 的 能 力 正 是 现代 编程 语言 的 特性 
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之 一 。API 中 的 每 一 行 描述 了 一 个 方法 ， 提 供 了 使 用 该 方法 所 需要 知道 的 所 有 信息 。Math 库 也 定义 
了 常数 PI (圆周率 r ) 和 E( 自然 对 数 e ) , 你 可 以 在 自己 的 程序 中 通过 这 些 变量 名 引用 它们 。 例 如 ， 
Math.sin(Math.PI/2) 的 结果 是 1.0，Math.1og(Math.E) 的 结果 也 是 1.0 (因为 Math.sin() 
的 参数 是 弧度 而 Math.1og0) 使 用 的 是 自然 对 数 函 数 ) 。 


表 1.1.6 Java 的 数学 函数 库 的 APl (节选 ) 


public class Math 


static double abs(double a) a 的 绝对 值 
static double max(double a, double b) a 和 4b 中 的 较 大 者 
static double min(double a, double b) a 和 4b 中 的 较 小 者 
注 1: abs()、max() 和 min() 也 定义 了 int、1ong 和 float 的 版 本 。 

static double sin(double theta) 正弦 函数 
static double cos(double theta) 余弦 函数 
static double tan(double theta) 正切 函数 





注 2: 角 用 弧度 表示 ， 可 以 使 用 toDegrees() 和 toRadians() 转换 角度 和 弧度 。 
注 3: 它们 的 反 函 数 分 别 为 asin() 、acos() 和 atan()。 


static double exp(double a) 指数 函数 ( e” ) 
static double log(double a) 自然 对 数 函 数 (log.a， 即 Ina) 
static double pow(double a，double b) 求 a 的 5b 次 方 (@a*) 
static double random() [0, 1) 之 间 的 随机 数 
static double sqrt(double a) a 的 平方 根 
static double E 常数 e (常数 ) 
static double PI 常数 (常数 ) 
其 他 函数 请 见 本 书 的 网 站 。 
1.1.7.2 Java 库 


成 千 上 万 个 库 的 在 线 文档 是 Java 发 布 版 本 的 一 部 分 。 为 了 更 好 地 描述 我 们 的 编程 模型 ， 我 们 只 
是 从 中 节选 了 本 书 所 用 到 的 若干 方法 。 例 如 ，BinarySearch 中 用 到 了 Java 的 Arrays 库 中 的 sort() 
方法 ， 我 们 对 它 的 记录 如 表 1.1.7 所 示 。 


表 1.1.7 Java 的 Arrays 库 节 选 (java.util.Arrays) 
public class Arrays 
static void sort(int[] a) 将 数组 按 升 序 排序 
注 : 其 他 原始 类 型 和 0bject 对 象 也 有 对 应 版 本 的 方法 。 


Arrays 库 不 在 java.lang 中 ， 因 此 我 们 需要 用 import 语句 导入 后 才能 使 用 它 ， 与 BinarySearch 
中 一 样 。 事实 上 ， 本 书 的 第 2 章 讲 的 正 是 数组 的 各 种 sort 0 方法 的 实现 ,包括 Arrays.sortQ 中 
实现 的 归并 排序 和 快速 排序 算法 。Java 和 很 多 其 他 编程 语言 都 实现 了 本 书 讲解 的 许多 基础 算法 。 例 
如 ，Arrays 库 还 包含 了 二 分 查找 的 实现 。 为 避免 混淆 ， 我 们 一 般 会 使 用 自己 的 实现 ， 但 对 于 你 已 经 
掌握 的 算法 使 用 高 度 优 化 的 库 实 现 当 然 也 没有 任何 问题 。 
1.1.7.3 ”我 们 的 标准 库 

为 了 介绍 Java 编程 、 为 了 科学 计算 以 及 算法 的 开发 、 学 习 和 应 用 ， 我 们 也 开发 了 若干 库 来 提供 
一 些 实用 的 功能 。 这 些 库 大 多 用 于 处 理 输入 输出 。 我 们 也 会 使 用 以 下 两 个 库 来 测试 和 分 析 我 们 的 实 
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现 。 第 一 个 库 扩展 了 Math.random() 方法 ( 见 表 1.1.8 ) ， 以 根据 不 同 的 概率 密度 函数 得 到 随机 值 ; 
第 二 个 库 则 支持 各 种 统计 计算 ( 见 表 1.1.9 ) 。 


表 1.1.8 我 们 的 随机 数 静 态 方法 库 的 API 


public class StdRandom 





static void initialize(long seed) 初始 化 

static double random() 0 到 1 之 间 的 实数 

static int uniformCint N) 0 到 N-1 之 间 的 整数 

static int uniform(Cint lo, int hi) 1o 到 hi-1 之 间 的 整数 

static double uniform(double 1o，double hi) 1o 到 hi 之 间 的 实数 

static boolean bernoulli(double p) 返回 真 的 概率 为 p 

static double gaussian() 正 态 分 布 ， 期 望 值 为 0， 标 准 差 为 1 
static double gaussian(double m, double s) 正 态 分 布 ， 期望值 为 m， 标准 差 为 s 
static int discrete(double[] a) 返回 i 的 概率 为 a[1i] 

static void shuffle(double[] a) 将 数组 a 随机 排序 


注 : 库 中 也 包含 为 其 他 原始 类 型 和 Object 对 象 重 载 的 shuffle() 函数 。 


表 1.1.9 我 们 的 数据 分 析 静 态 方法 库 的 API 


public class StdStats 


static double max(double[] a) 最 大 值 
static double min(double[] a) 最 小 值 
static double mean(double[] a) 平均 值 
static double var(double[] a) 采样 方差 
static double stddev(double[] a) 采样 标准 差 
static double median(double[] a) 中 位 数 


StdRandom 的 initialize() 方法 为 随机 数 生成 器 提供 种 子 ， 这 样 我 们 就 可 以 重复 和 随机 数 有 
关 的 实验 。 以 上 一 些 方法 的 实现 请 参考 表 1.1.10。 有 些 方 法 的 实现 非常 简单 ， 为 什么 还 要 在 方法 库 
中 实现 它们 ? 设计 良好 的 方法 库 对 这 个 问题 的 标准 回答 如 下 。 
口 这 些 方法 所 实现 的 抽象 层 有 助 于 我 们 将 精力 集中 在 实现 和 测试 本 书 中 的 算法 ， 而 非 生 成 随机 
数 或 是 统计 计算 。 每 次 都 自己 写 完 成 相同 计算 的 代码 ， 不 如 直接 在 用 例 中 调用 它们 要 更 简洁 
易 懂 。 
口 方法 库 会 经 过 大 量 测试 ， 覆 盖 极 端 和 罕见 的 情况 ， 是 我 们 可 以 信任 的 。 这 样 的 实现 需要 大 量 
的 代码 。 例 如 ， 我 们 经 常 需要 使 用 的 各 种 数据 类 型 的 实现 ， 又 比如 Java 的 Arrays 库 针对 不 
同 数据 类 型 对 sort() 进行 了 多 次 重 载 。 
这 些 是 Java 模 块 化 编程 的 基础 ,不 过 在 这 里 可 能 有 些 夸张 。 但 这 些 方 法 库 的 方法 名 称 简 单 .实现 容易 ， 
其 中 一 些 仍 然 能 作为 有 趣 的 算法 练习 。 因 此 ， 我 们 建议 你 到 本 书 的 网 站 上 去 学 习 一 下 StdRandom. 
java 和 StdStats.java 的 源 代码 并 好 好 利用 这 些 经 过 验证 了 的 实现 。 使 用 这 些 库 ( 以 及 检验 它们 ) 最 
简单 的 方法 就 是 从 网 站 上 下 载 它们 的 源 代码 并 放 入 你 的 工作 目录 。 网 站 上 讲解 了 在 各 种 系统 上 使 用 
它们 的 配置 目录 的 方法 。 
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表 1.1.10 StdRandom 库 中 的 静态 方法 的 实现 
期 望 的 结果 实 现 





随机 返回 [a,b) 之 间 的 一 个 double 值 public static double uniform(double a, double b) 
{ return a + StdRandom.random() * (b-a); } 


随机 返回 [0. .N) 之 间 的 一 个 int 值 public static int uniformCint N) 
{ return (int) (StdRandom.random() * N); +} 


随机 返回 [1o,hi) 之 间 的 一 个 int 值 public static int uniform(int 1o, int hi) 
{ return lo + StdRandom.uniform(hi - 10); } 


public static int discrete(double[] a) 
{ // a[] 中 各 元 素 之 和 必须 等 于 1 
double r = StdRandom.random() ; 
double sum = 0.0; 
for (int 1 = 0; i < a.length; i++) 


根据 离散 概率 随机 返回 的 int 值 (出 现 i 


有 3 { 
的 概率 为 a[i] ) sum = sum + a[i]; 
if (sum >= r) return 1; 
} 
return -1; 
} 


public static void shuffle(double[] a) 
{ 

int N = a.length; 

for (Cint i = 0; i < N; i++) 

{ // 将 a[i] 和 a[i..N-1] 中 任意 一 个 元 素 交换 
int r = i + StdRandom.uniform(N-i); 
double temp = a[i]; 

a[i] = a[r]; 
a[r] temp; 


随机 将 double 数组 中 的 元 素 排 序 ( 请 见 
练习 1.1.36 ) 


1.1.7.4 你 自己 编写 的 库 
你 应 该 将 自己 编写 的 每 一 个 程序 都 当做 一 个 日 后 可 以 重用 的 库 。 
口 编写 用 例 ， 在 实现 中 将 计算 过 程 分 解 成 可 控 的 部 分 。 
口 明确 静态 方法 库 和 与 之 对 应 的 API (或 者 多 个 库 的 多 个 API ) 。 
口 实现 API 和 一 个 能 够 对 方法 进行 独立 测试 的 main() 函数 。 
这 种 方法 不 仅 能 帮助 你 实现 可 重用 的 代码 ， 而 且 能 够 教会 你 如 何 运用 模块 化 编程 来 解决 一 个 复 [31 
杂 的 问题 。 32 
API 的 目的 是 将 调用 和 实现 分 离 : 除了 API 中 给 出 的 信息 , 调用 者 不 需要 知道 实现 的 其 他 细节 ， 
而 实现 也 不 应 考虑 特殊 的 应 用 场景 。API 使 我 们 能 够 广泛 地 重用 那些 为 各 种 目的 独立 开发 的 代码 。 
没有 任何 一 个 Java 库 能 够 包含 我 们 在 程序 中 可 能 用 到 的 所 有 方法 ， 因 此 这 种 能 力 对 于 编写 复杂 的 应 
用 程序 特别 重要 。 相 应 地 ， 程 序 员 也 可 以 将 API 看 做 调用 和 实现 之 间 的 一 份 契约 ， 它 详细 说 明了 每 
个 方法 的 作用 。 实 现 的 目标 就 是 能 够 遵守 这 份 契 约 。 一 般 来 说 ， 做 到 这 一 点 有 很 多 种 方法 ， 而 且 将 
调用 者 的 代码 和 实现 的 代码 分 离 使 我 们 可 以 将 老 算 法 替换 为 更 新 更 好 的 实现 。 在 学 习 算法 的 过 程 中 ， 
这 也 使 我 们 能 够 感受 到 算法 的 改进 所 带 来 的 影响 。 33| 
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1.1.8 字符 串 

字符 串 是 由 一 串 字 符 ( char 类 型 的 值 ) 组 成 的 。 一 个 String 类 型 的 字面 量 包括 一 对 双 引 号 和 
其 中 的 字符 , 比如 "He11o，Wor1d"。String 类 型 是 Java 的 一 个 数据 类 型 , 但 并 不 是 原始 数据 类 型 。 
我 们 现在 就 讨论 String 类 型 是 因为 它 非常 基础 ， 几 乎 所 有 Java 程序 都 会 用 到 它 。 
1.1.8.1 字符 串 拼接 

和 各 种 原始 数据 类 型 一 样 ，Java 内 置 了 一 个 串联 String 类 型 字符 串 的 运算 符 (+ ) 。 表 1.1.11 
是 对 表 1.1.2 的 补充 。 拼 接 两 个 String 类 型 的 字符 串 将 得 到 一 个 新 的 String 值 ， 其 中 第 一 个 字符 
串 在 前 ， 第 二 个 字符 串 在 后 。 


表 1.1.11 Java 的 String 数据 类 型 


表达 式 举例 
We 
类 型 值 域 举 例 运 算 符 有 什 
String 一 串 字 符 "AB" + (拼接 ) "HBob”" "Hi, Bob" 
"He11o" "12" 4 "34" "1234" 
"2 .5 wh 4 4 + 29 "14+2" 


1.1.8.2 ”类 型 转换 

字符 串 的 两 个 主要 用 途 分 别 是 将 用 户 从 键盘 输入 的 内 容 转换 成 相应 数据 类 型 的 值 以 及 将 各 种 数 
据 类 型 的 值 转化 成 能 够 在 屏幕 上 显示 的 内 容 。Java 的 String 类 型 为 这 些 操 作 内 置 了 相应 的 方法 ， 
而 且 Integer 和 Double 库 还 包含 了 分 别 和 String 类 型 相互 转化 的 静态 方法 ( 见 表 1.1.12 ) 。 


表 1.1.12 String 值 和 数字 之 间 相 互 转换 的 API 


public class Integer 


static int parseInt(String s) 将 字符 串 s 转换 为 整数 

static String toString(Cint ji) 将 整数 i 转换 为 字符 串 
public class Double 

static double parseDouble(String s) 将 字符 串 s 转换 为 浮 点 数 

static String toString(double x) 将 浮 点 数 x 转换 为 字符 串 


1.1.8.3 ”自动 转换 

我 们 很 少 明确 使 用 刚才 提 到 的 toString() 方法 ， 因 为 Java 在 连接 字符 串 的 时 候 会 自动 将 任 
意 数 据 类 型 的 值 转换 为 字符 串 : 如 果 加 号 (+ ) 的 一 个 参数 是 字符 串 ， 那 么 Java 会 自动 将 其 他 参 
数 都 转换 为 字符 串 ( 如 果 它 们 不 是 的 话 ) 。 除 了 像 "The square root of 2.0 is " + Math 
sqrt(2.0) 这 样 的 使 用 方式 之 外 ， 这 种 机 制 也 使 我 们 能 够 通过 一 个 空 字符 串 "" 将 任意 数据 类 型 的 
值 转换 为 字符 串 值 。 
1.1.8.4 ”命令 行 参数 

在 Java 中 字符 串 的 一 个 重要 的 用 途 就 是 使 程序 能 够 接收 到 从 命令 行 传递 来 的 信息 。 这 种 机 制 很 
简单 。 当 你 输入 命令 java 和 一 个 库 名 以 及 一 系列 字符 串 之 后 ，Java 系统 会 调用 库 的 main() 方法 
并 将 那 一 系列 字符 串 变 成 一 个 数组 作为 参数 传递 给 它 。 例 如 ，BinarySearch 的 main() 方法 需要 一 
个 命令 行 参数 ， 因 此 系统 会 创建 一 个 大 小 为 1 的 数组 。 程 序 用 这 个 值 ， 也 就 是 args[0] ， 来 获取 白 
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名 单 文件 的 文件 名 并 将 其 作为 StdIn. readInts() 的 参数 。 另 一 种 在 我 们 的 代码 中 常见 的 用 法 是 当 
命令 行 参数 表示 的 是 数字 时 ， 我 们 会 用 parseInt() 和 parseDoub1le(0) 方法 将 其 分 别 转换 为 整数 

字符 串 的 用 法 是 现代 程序 中 的 重要 部 分 。 现 在 我 们 还 只 是 用 String 在 外 部 表示 为 字符 串 的 数 
字 和 内 部 表示 为 数字 类 数据 类 型 的 值 进行 转换 。 在 1.2 节 中 我 们 会 看 到 Java 为 我 们 提供 了 非常 丰富 
的 字符 串 操作 ; 在 1.4 节 中 我 们 会 分 析 String 类 型 在 Java 内 部 的 表示 方法 ; 在 第 5 章 我 们 会 深入 
学 习 处 理 字 符 串 的 各 种 算法 。 这 些 算 法 是 本 书 中 最 有 趣 、 最 复杂 也 是 影响 力 最 大 的 一 部 分 算法 。 


1.1.9 输入 输出 

我 们 的 标准 输入 、 输 出 和 绘图 库 的 作用 是 建立 一 个 Java 程序 和 外 界 交流 的 简易 模型 。 这 些 库 的 
基础 是 强大 的 Java 标准 库 ， 但 它们 一 般 更 加 复杂 ， 学 习 和 使 用 起 来 都 更 加 困难 。 我 们 先 来 简单 地 了 
解 一 下 这 个 模型 。 

在 我 们 的 模型 中 ，Java 程序 可 以 从 命令 行 参 数 或 者 一 个 名 为 标准 输入 流 的 抽象 字符 流 中 获得 输 
入 ， 并 将 输出 写 人 另 一 个 名 为 标准 输出 流 的 字符 流 中 。 

我 们 需要 考虑 Java 和 操作 系统 之 间 的 接口 ， 因 此 我 
们 要 简要 地 讨论 一 下 大 多 数 操作 系统 和 程序 开发 环境 所 本 准 答 入 一 命令 行 参数 
提供 的 相应 机 制 。 本 书 网 站 上 列 出 了 关于 你 所 使 用 的 系 
统 的 更 多 信息 。 默 认 情况 下 ， 命 令 行 参 数 、 标 准 输入 和 
标准 输出 是 和 应 用 程序 绑 定 的 ， 而 应 用 程序 是 由 能 够 接 
受命 令 输 入 的 操作 系统 或 是 开发 环境 所 支持 。 我 们 笼统 EE 


地 用 终端 来 指 代 这 个 应 用 程序 提供 的 供 输入 和 显示 的 窗 A 









口 。20 世纪 70 年 代 早期 的 Unix 系统 已 经 证 明 我 们 可 以 文件 VO 
用 这 个 模型 方便 直接 地 和 程序 以 及 数据 进行 交互 。 我 们 标准 经 图 
在 经 典 的 模型 中 加 入 了 一 个 标准 绘图 模块 用 来 可 视 化 表 
示 对 数据 的 分 析 ， 如 图 1.1.3 所 示 。 
1.1.9.1 ”命令 和 参数 

终端 窗口 包含 一 个 提示 符 ， 通 过 它 我 们 能 够 向 操作 系统 输入 命令 和 参数 。 本 书 中 我 们 只 会 用 到 
几 个 命令 , 如 表 1.1.13 所 示 。 我 们 会 经 常 使 用 java 命令 来 运行 我 们 的 程序 。 我 们 在 1.1.8.4 节 中 提 到 过 ， 
Java 类 都 会 包含 一 个 静态 方法 main()， 它 有 一 个 String 数组 类 型 的 参数 args[] 。 这 个 数组 的 内 
容 就 是 我 们 输入 的 命令 行 参数 ,操作 系统 会 将 它 传递 给 Java。Java 和 操作 系统 都 默认 参数 为 字符 串 。 
如 果 我 们 需要 的 某 个 参数 是 数字 ， 我 们 会 使 用 类 似 Integer.parseInt() 的 方法 将 其 转换 为 适当 的 
数据 类 型 的 值 。 图 1.1.4 是 对 命令 的 分 析 。 


表 1.1.13 操作 系统 常用 命令 


图 1.1.3 Java 程序 整体 结构 


命 令 参 数 作 用 

javac java 文件 名 编译 Java 程序 

java .class 文件 名 (不 需要 扩展 名 ) 运行 Java 程序 
和 命令 行 参数 

more 任意 文本 文件 名 打印 文件 内 容 
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1.1.9.2 ”标准 输出 

我 们 的 StdOut 库 的 作用 是 支持 标 准 输出 。 一 般 | densegtt 
来 说 ， 系 统 会 将 标准 输出 打印 到 终端 窗口 。printO) 提示 符 | 
方法 会 将 它 的 参数 放 到 标准 输出 中 ; print1n0 方法 。 局 ja Ronadnseg 100.0 200.0] 
会 附加 一 个 换行 符 ; printf() 方法 能 够 格式 化 输出 | 


args[0] 
( 见 1.1.9.3 节 ) 。Java 在 其 System.out 库 中 提供 了 类 调用 Java args[1] 
似 的 方法 ， 但 我 们 会 用 Stdout 库 来 统一 处 理 标准 输 args[2] 
入 和 输出 (并 进行 了 一 些 技术 上 的 改进 ) , 见 表 1.1.4。 图 1.1.4 命令 详解 


表 1.1.14 我 们 的 标准 输出 库 的 静态 方法 的 API 


public class StdOut 


static void print(String s) 打印 s 

static void printin(String s) 打印 s 并 接 一 个 换行 符 
static void print1n() 打印 一 个 换行 符 
static void printf(String f, ...) 格式 化 输出 


注 : 其 他 原始 类 型 和 0bject 对 象 也 有 对 应 版 本 的 方法 。 


要 使 用 这 些 方法 ， 请 从 本 书 的 网 站 上 将 StdOutjava 下 载 到 你 的 工作 目录 ， 并 像 Stdo0ut .println 
("He110，Wor1d"); 这 样 在 代码 中 调用 它们 。 左 下 方 的 程序 就 是 一 个 例子 。 
1.1.9.3 格式 化 输出 
在 最 简单 的 情况 下 printfQ 方法 接受 两 个 参数 。 第 一 个 参数 是 一 个 格式 字符 串 ， 描 述 了 第 二 
个 参数 应 该 如 何在 输出 中 被 转换 为 一 个 字符 串 。 最 简单 的 格式 字符 串 的 第 一 个 字符 是 % 并 紧 跟 一 个 
字符 表示 的 转换 代码 。 我 们 最 常 使 用 的 转换 代码 包括 d( 用 于 Java 整 型 的 十 进 制 数 ) 、f ( 浮 点 型 ) 
和 s (字符 串 ) 。 在 % 和 转换 代码 之 


ei class RandomSeq 间 可 以 插入 一 个 整数 来 表示 转换 之 后 

oe oh args) 的 值 的 宽度 ， 即 输出 字符 串 的 长 度 。 
yk PN oo， 1) 之 间 、| 二， 人 2 

int N = Integer.parseInt(args[0]); 默认 情况 下 ， 转换 后 会 在 字符 串 的 左 

= op ber en aos 边 添加 空格 以 达到 需要 的 宽度 ， 如 果 

ouble hi = Double.parseDouble(args[2]); 我 们 想 在 右边 加 入 空格 则 应 该 使 用 负 

for Cint km 0% < NT Tis) a Iy ~ 

{ ; 宽度 ( 如 果 转换 得 到 的 字符 串 比 设 定 

会)。 在 江 

} 之 后 我 们 还 可 以 插入 一 个 小 数 点 以 

} > 及 一 个 数值 来 指定 转换 后 的 double 


值 保 留 的 小 数位 数 ( 精度 ) 或 是 


StdOut 的 用 例 示例 String 字符 串 所 截取 的 长 度 。 使 用 


he the er OR ot printf() 方法 时 需要 记 住 的 最 重要 的 一 点 就 是 ， 格 式 
123.43 字符 串 中 的 转换 代码 和 对 应 参数 的 数据 类 型 必须 匹配 。 
人 也 就 是 说 ，Java 要 求 参数 的 数据 类 型 和 转换 代码 表示 
pp 的 数据 类 型 必须 相同 。printf() 的 第 一 个 String 字 


符 串 参数 也 可 以 包含 其 他 字符 。 所 有 非 格式 字符 串 的 
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字符 都 会 被 传递 到 输出 之 中 , 而 格式 字符 串 则 会 被 参数 的 值 所 替代 ( 按照 指定 的 方式 转换 为 字符 串 )。 
例如 ， 这 条 语句 : 

StdOut.printf("PI is approximately %.2f\n", Math.PI); 
会 打印 出 : 

PI is approximately 3.14 
可 以 看 到 ， 在 printf() 中 我 们 需要 明确 地 在 第 一 个 参数 的 末尾 加 上 \n 来 换行 。printf() 函数 
能 够 接受 两 个 或 者 更 多 的 参数 。 在 这 种 情况 下 ， 在 格式 化 字符 串 中 每 个 参数 都 会 有 对 应 的 转换 代 
码 ， 这 些 代 码 之 间 可 能 隔 着 其 他 会 被 直接 传递 到 输出 中 的 字符 。 也 可 以 直接 使 用 静态 方法 String. 
format() 来 用 和 printf() 相同 的 参数 得 到 一 个 格式 化 字符 串 而 无 需 打 印 它 。 我 们 可 以 用 格式 化 
打印 方便 地 将 实验 数据 输出 为 表格 形式 (这 是 它们 在 本 书 中 的 主要 用 途 ) ， 如 表 1.1.15 所 示 。 


表 1.1.15 printf() 的 格式 化 方式 〈 更 多 选项 请 见 本 书 网 站 ) 





数据 类 型 转换 代码 举 例 格式 化 字符 串 举例 转换 后 输出 的 字符 串 
"%14d" 大 DL 
nt d 512 "ge-14d" "512 是 
f "1.2 a 1595.17" 
double 和 1595.1680010754388 "WT "1595.1680011" 
"%14.4e" cf 1.5952e+03" 
"%14s" " Hello, World" 
String S "Hello, World" "%-14s" "Hello, World 
“"%LA4 SS "Hello . 


1.1.9.4 ”标准 输入 
我 们 的 StdIn 库 从 标准 输入 
流 中 获取 数据 ， 这 些 数 据 可 能 为 


public class Average 





{ 
空 也 可 能 是 一 系列 由 空白 字符 分 a et pm es or ng[] args) 
MR 本 A pp 二 

隔 的 值 ( 空格 、 制 表 符 、 换 行 符 ee 
等 ) 。 默 认 状 态 下 系统 会 将 标准 int cnt = 0; 
答 由 定 和 到 和 六 吕 一休 答 入 入 Sen 

ay 一 证 计 之 
的 内 容 就 是 输入 流 (由 <ctr1-d> sum += StdIn.readDouble(); 
或 <ctr1-z> 结束 ， 取 决 于 你 使 | 
用 的 终端 应 用 程序 ) 。 这 些 值 可 double avg = sum / cnt; 
能 是 String 或 是 Java 的 某 种 原 F Stdout.printf("Average is %.5f\n", avg); 


始 类 型 的 数据 。 标 准 输入 流 最 重 i 
要 的 特点 是 这 些 值 会 在 你 的 程序 
读 取 它 们 之 后 消失 。 只 要 程序 读 
取 了 一 个 值 ， 它 就 不 能 回 退 并 再 次 读 取 它 。 这 个 特点 产生 了 一 些 i i 
限制 ， 但 它 反映 了 一 些 输入 设备 的 物理 特性 并 简化 了 对 这 些 设备 1.23456 
的 抽象 。 有 了 输入 流 模型 ， 这 个 库 中 的 静态 方法 大 都 是 自 文档 化 2 


的 (它们 的 签名 即 说 明了 它们 的 用 途 ) 。 右 侧 列 出 了 StdIn 的 234578 


个 用 例 。 <ctrl-d> 
表 1.1.16 详细 说 明了 标准 输入 库 中 的 静态 方法 的 API。 i 


StdIn 的 用 例 举例 
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表 1.1.16 标准 输入 库 中 的 静态 方法 的 API 


Public class StdIn 





static boolean isEmpty() 如 果 输 入 流 中 没有 剩余 的 值 则 返回 true， 否 则 返回 false 
static int readInt() 读 取 一 个 int 类 型 的 值 
static double readDouble() 读 取 一 个 double 类 型 的 值 
static float readFloatQO) 读 取 一 个 float 类 型 的 值 
static long readLong() 读 取 一 个 1ong 类 型 的 值 
static boolean readBoolean() 读 取 一 个 boolean 类 型 的 值 
static char readChar() 读 取 一 个 char 类 型 的 值 
static byte readByte() 读 取 一 个 byte 类 型 的 值 
static String readString() 读 取 一 个 String 类 型 的 值 
static boolean hasNextLine() 输入 流 中 是 否 还 有 下 一 行 
static String readLine() 读 取 该 行 的 其 余 内 容 
static String readA110) 读 取 输入 流 中 的 其 余 内 容 


1.1.9.5 重 定 向 与 管道 

标准 输入 输出 使 我 们 能 够 利用 许多 操作 系统 都 支持 的 命令 行 的 扩展 功能 。 只 需要 向 启动 程序 的 
命令 中 加 入 一 个 简单 的 提示 符 ， 就 可 以 将 它 的 标准 输出 重 定 向 至 一 个 文件 。 文 件 的 内 容 既 可 以 永久 
保存 也 可 以 在 之 后 作为 男 一 个 程序 的 输入 : 

% java RandomSeq 1000 100.0 200.0 > data.txt 

这 条 命令 指明 标准 输出 流 不 是 被 打印 至 终端 窗口 ， 而 是 被 写 入 一 个 叫做 data.txt 的 文件 。 每 次 
调用 StdOut.printQ 或 是 Stdot.println() 都 会 向 该 文件 追加 一 段 文本 。 在 这 个 例子 中 ,我们 
最 后 会 得 到 一 个 含有 1000 个 随机 数 的 文件 。 终端 窗 口中 不 会 出 现任 何 输出 : 它们 都 被 直接 写 人 了 
“>” 号 之 后 的 文件 中 。 这 样 我 们 就 能 将 信息 存储 以 备 下 次 使 用 。 请 注意 不 需要 改变 RandomSeq 的 
任何 内 容 一 一 它 使 用 的 是 标准 输出 的 抽象 ， 因 此 它 不 会 因为 我 们 使 用 了 该 抽象 的 另 一 种 不 同 的 实现 
而 受到 影响 。 类 似 ， 我 们 可 以 重 定 向 标准 输入 以 使 StdIn 从 文件 而 不 是 终端 应 用 程序 中 读 取 数据 : 


% java Average < data.txt 


这 条 命令 会 从 文件 data.txt 中 读 取 一 系列 数值 并 计算 它们 的 平均 值 。 具 体 来 说 ，“<” 号 是 一 个 
提示 符 ， 它 告诉 操作 系统 读 取 文本 文件 data.txt 作为 输入 流 而 不 是 在 终端 窗口 中 等 待 用 户 的 输入 。 
当 程 序 调 用 StdIn. readDouble() 时 ， 操 作 系统 读 取 的 是 文件 中 的 值 。 将 这 些 结合 起 来 ， 将 一 个 程 
序 的 输出 重 定向 为 男 一 个 程序 的 输入 叫做 管道 : 


% java RandomSeq 1000 100.0 200.0 | java Average 


这 条 命令 将 RandomSeq 的 标准 输出 和 Average 的 标准 输入 指定 为 同一 个 流 。 它 的 效果 是 好 像 
在 Average 运行 时 RandomSeq 将 它 生成 的 数字 输入 了 终端 窗口 。 这 种 差别 影响 非常 深远 ， 因 为 它 突 
破 了 我 们 能 够 处 理 的 输入 输出 流 的 长 度 限制 。 例 如 ， 即 使 计算 机 没有 足够 的 空间 来 存储 十 亿 个 数 ， 
我 们 仍然 可 以 将 例子 中 的 1000 换 成 1 000 000 000 ( 当然 我 们 还 是 需要 一 些 时 间 来 处 理 它们 ) 。 当 
RandomSeq 调用 Std0ut.printlnG 时 ， 它 就 向 输出 流 的 末尾 添加 了 一 个 字符 串 ; 当 Average 调用 
StdIn.readInt() 时 ， 它 就 从 输入 流 的 开头 删除 了 一 个 字符 串 。 这 些 动作 发 生 的 实际 顺序 取决 于 
操作 系统 : 它 可 能 会 先 运行 RandomSeq 并 产生 一 些 输出 ， 然 后 再 运行 Average， 来 消耗 这 些 输出 ， 
或 者 它 也 可 以 先 运行 Average， 直 到 它 需 要 一 些 输入 然后 再 运行 RandomSeq 来 产生 一 些 输 出 。 虽 然 
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最 后 的 结果 都 一 样 ， 但 我 们 的 程序 就 不 ”将 一 个 文件 重 定向 为 标准 输入 
再 需要 担心 这 些 细节 ， 因 为 它们 只 会 % java Average < data.txt 
a data.txt 
标准 输入 和 标准 输出 的 抽象 打交道 。 
标准 输入 
图 1.1.5 总 结 了 重 定向 与 管道 的 扩 


1.1.9.6 ”基于 文件 的 输入 输出 本 如 

我 们 的 I 和 Out 库 提供 了 一 些 静 Se To i 200.0 > data.txt 
态 方法 ,来 实现 向 文件 中 写 人 或 从 文件 
中 读 取 一 个 原始 数据 类 型 (或 String 
类 型 ) 的 数组 的 抽象 。 我 们 会 使 用 I 
库 中 的 readInts()、readDoubles() 
和 readstrings() 以 及 Out 库 中 的 
writeInts()、writeDoubles() 和 ”将 一 个 程序 的 输出 通过 管道 作为 另 一 个 程序 的 输入 
writeStrings() 方法 ， 参 数 可 以 是 文 % java RandomSeq 1000 100.0 200.0 | java Average 
件 或 网 页 如 表 1.1.17 所 示 。 例 如 ， 借 此 
我 们 可 以 在 同一 个 程序 中 分 别 使 用 文件 
和 标准 输入 达到 两 种 不 同 的 目的 ， 例 如 
BinarySearch。In 和 Out 两 个 库 也 实现 
了 一 些 数据 类 型 和 它们 的 实例 方法 ， 这 
使 我 们 能 够 将 多 个 文件 作为 输入 输出 流 图 1.1.5 命令 行 的 重 定向 与 管道 
并 将 网 页 作为 输入 流 ， 我 们 还 会 在 1.2 
节 中 再 次 考察 它们 。 






RandomSeq 


标准 输出 





RandomSeq 








标准 输出 标准 输入 





表 1.1.17 我 们 用 于 读 取 和 写 入 数组 的 静态 方法 的 API 


public class In 


static int[] readInts(String name) 读 取 多 个 int 值 
static double[] readDoubles(String name) 读 取 多 个 double 值 
static String[] readStrings(String name) 读 取 多 个 String 值 
public class Out 
static void write(int[], String name) 写 入 多 个 int 值 
static void write(doule[] a, String name) 写 入 多 个 double 值 
static void write(String[] a, String name) 写 入 多 个 String 值 
注 1: 库 也 支持 其 他 原始 数据 类 型 。 


注 2: 库 也 支持 StdIn 和 StdOut (忽略 name 参数 ) 。 


1.1.9.7 ”标准 绘图 库 〈 基 本 方法 ) 

目前 为 止 ,我 们 的 输入 输出 抽象 层 的 重点 只 有 文本 字符 串 。 现 在 我 们 要 介绍 一 个 产生 图 像 输 
出 的 抽象 层 。 这 个 库 的 使 用 非常 简单 并 且 人 允许 我 们 利用 可 视 化 的 方式 处 理 比 文字 丰富 得 多 的 信息 。 
和 我 们 的 标准 输入 输出 一 样 ， 标 准 绘图 抽象 层 实现 在 库 StdDraw 中 ， 可 以 从 本 书 的 网 站 上 下 载 
StdDraw.java 到 你 的 工作 目录 来 使 用 它 。 标 准 绘图 库 很 简单 : 我 们 可 以 将 它 想 象 为 一 个 抽象 的 能 够 
在 二 维 画 布 上 夯 出 点 和 直线 的 绘图 设备 。 这 个 设备 能 够 根据 程序 调用 的 StdDraw 中 的 静态 方法 画 出 
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一 些 基本 的 几何 图 形 ， 这 些 方 
法 包括 画 出 点 、 直 线 、 文 本 字 
符 串 、 圆 、 长 方形 和 多 边 形 等 。 
和 标准 输入 输出 中 的 方法 一 
样 ， 这 些 方法 几乎 也 都 是 自 文 
档 化 的 : StdDraw.1ine() 能 
够 根据 参数 的 坐标 画 出 一 条 连 
接点 (xo yo) 和 点 (wi,y1) 的 线段 ， 
StdDraw.point() 能 够 根据 参 
数 坐 标 画 出 一 个 以 (x, yy) 为 中 
心 的 点 , 等 等 , 如 图 1.1.6 所 示 。 
几何 图 形 可 以 被 填充 ( 默认 为 
黑色 ) 。 默 认 的 比例 尺 为 单位 
正方 形 (所 有 的 坐标 均 在 0 和 


StdDraw.point(x0, y0); 


D StdDraw.circle(x, y, r); 
StdDraw. line(x1, yl, x2, y2); 


> 
本 下 
了 Ci 动 
Re \ (7) 
wo 0) cw y;) 


double[] x = {x0, xl1, x2, x3}; 
double[] y = {y0, yl, y2, y3}; 


StdDraw. square(x, y, r); StdDraw.polygon(x, y); 


(Xo, yo) 


e & i 
2 Sy 


GD 


点 和 线 为 黑色 ， 背 景 为 白色 。 


pa 
1 之 间 ) 。 标 准 的 实现 会 将 画 Gy 世 风 
布 显示 为 屏幕 上 的 一 个 窗口 ， 
图 1.1.6 StdDraw 的 用 法 举例 


表 1.1.18 是 对 标准 绘图 库 中 静态 方法 API 的 汇总 。 
表 1.1.18 标准 绘图 库 的 静态 (绘图 ) 方法 的 API 


public class StdDraw 





static void line(double x0, double y0, double x1, double y1) 

static void point(double x, double y) 

static void text(double x, double y, String s) 

static void circle(double x, double y, double r) 

static void filledCircle(double x, double y, double r) 

static void ellipse(double x, double y, double rw, double rh) 
static void filledEllipse(double x, double y, double rw, double rh) 
static void square(double x, double y, double r) 

static void filledSquare(double x, double y, double r) 

static void rectangle(double x, double y, double rw, double rh) 
static void filledRectangle(double x, double y, double rw, double rh) 
static void polygon(double[] x, double[] y) 

static void filledPolygon(double[] x, double[] y) 


1.1.9.8 ”标准 绘图 库 〈 控 制 方法 ) 

标准 绘图 库 中 还 包含 一 些 方法 来 改变 画布 的 大 小 和 比例 、 直 线 的 颜色 和 宽度 、 文 本 字体 、 绘 图 
时 间 ( 用 于 动画 ) 等 。 可 以 使 用 在 StdDraw 中 预定 义 的 BLACK、BLUE、CYAN、DARK_GRAY 、GRAY、 
GREEN、LIGHT_GRAY、MAGENTA、ORANGE、PINK、RED、BOOK_RED、WHITE 和 YELLOW 等 颜色 常数 
作为 setPenColor(0) 方法 的 参数 ( 可 以 用 StdDraw.RED 这 样 的 方式 调用 它们 ) 。 画 布 窗口 的 菜单 
还 包含 一 个 选项 用 于 将 图 像 保存 为 适 于 在 网 上 传播 的 文件 格式 。 表 1.1.19 总 结 了 StdDraw 中 静态 控 
制 方法 的 API。 
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表 1.1.19 标准 绘图 库 的 静态 控制) 方法 的 API 





public class StdDraw 





static void 


static void 
static void 
static void 
static void 
static void 
static void 


static void 


setXscale(double x0, double x1) 
setYscale(double y0, double y1) 
setPenRadius(double r) 
setPenColor(Color c) 
setFont(Font f) 
setCanvasSize(int w, int h) 
clear(Color 0c) 

show(int dt) 


将 x 的 范围 设 为 (xo, xy 

将 ?的 范围 设 为 0o,y) 

将 画笔 的 粗细 半径 设 为 了 

将 画笔 的 颜色 设 为 c 

将 文本 字体 设 为 了 

将 画布 窗口 的 宽 和 高 分 别 设 为 w 和 有 h 
清空 画布 并 用 颜色 c 将 其 填充 

显示 所 有 图 像 并 暂停 dt 毫秒 








: 


在 本 书 中 ， 我 们 会 在 数据 分 析 和 算法 的 可 视 化 中 使 用 StdDraw。 表 1.1.20 是 一 些 例子 ， 我 们 在 
本 书 的 其 他 章节 和 练习 中 还 会 遇 到 更 多 的 例子 。 绘 图 库 也 文 持 动画 一 一 当然 ， 这 个 话题 只 能 在 本 书 


的 网 站 上 展开 了 。 


表 1.1.20 StdDraw 绘图 举例 


绘图 的 实现 (代码 片段 ) 


int N = 100; 


霄 数值 


随机 数组 


已 排序 的 随 
机 数组 


StdDraw.setXscale(0, N); 
StdDraw.setYscale(0, N*N); 
StdDraw.setPenRadius(.01); 
for (int 1 = 1; 1 <= N; i++) 
{ 
StdDraw.point(i, 1); 
StdDraw.point(i, i*1i); 
StdDraw.point(i, i*Math.1o0g(i)); 
} 
1hte, N $0 
double[] a = new double[N]; 
for Cint 1 = 0; i < N; i++) 
a[i] = StdRandom.random(); 
for (int 1 = 0; 1 < Ni i++) 


rm 


1:0*17N: 
a[i]/2.0; 
0.5/N; 


double x 
double y 
double rw 


double rh a[i]/2.0; 


} 


int N= 90; 
double[] a = new double[N]; 
for (Cint 1 = 0; 1 < N; 1++) 
af = StdRandom.random(); 
Arrays.sort(a); 
For Cint 可 Sw O's 


{ 


i < N; i++) 


TaOrT7Ns 
a[il]/2.0; 


double x 
double y 
double rw 0.5/N; 

doubie rh = afil/2.0; 
StdDraw.filledRectangle(x, y, 


自 六 


rw, rh); 


Wd 





‘ 诈 
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1.1.10 ”二 分 查找 

我 们 要 学 习 的 第 一 个 Java 程序 的 示例 程序 就 是 著名 、 高 效 并 且 应 用 广泛 的 三 分 查找 算法 ， 如 下 
所 示 。 这 个 例子 将 会 展示 本 书 中 学 习 新 算法 的 基本 方法 。 和 我 们 将 要 学 习 的 所 有 程序 一 样 ， 它 既是 
算法 的 准确 定义 ， 又 是 算法 的 一 个 完整 的 Java 实现 ， 而 且 你 还 能 够 从 本 书 的 网 站 上 下 载 它 。 


二 分 查找 


import java.util.Arrays; 
public class BinarySearch 
{ 
public static int rank(int key, int[] a) 
{ // 数组 必须 是 有 序 的 
int lo = 0; 
int hi = a.length - 1; 
while (lo <= hi) 
{ // 被 查找 的 键 要 么 不 存在 ， 要 么 必然 存在 于 a[1o..hi] 之 中 
int mid = lo + (hi = 10) / 2; 
(key < a[fmid]) hi = mid - 1; 
else if (key > a[mid]) lo = mid + 1; 
else return mid; 
} 
return -1; 
} 
public static void main(String[] args) 
{ 
int[] whitelist = In.readInts(args[0]); 
Arrays.sort(whitelist); 
while (!StdIn.isEmpty()) 
{ // 读 取 键 值 ， 如 果 不 存 在 于 白 名 单 中 则 将 其 打印 
int key = StdIn.readInt(); 
if (rank(key, whitelist) < 0) 
Stdout.printlnCkey) ; 
} 
} 
} 


这 眉 程 序 接受 一 个 日 名 单 文件 ( 一 列 整数 ) % java BinarySearch tinyW.txt < tinyT.txt 
作为 参数 ， 并 会 过 滤 掉 标准 输入 中 的 所 有 存在 0 4 - di 
于 白 名 单 中 的 条 目 ， 仅 将 不 在 白 名 单 上 的 整数 99 
打印 到 标准 输出 中 。 它 在 rankO) 静态 方法 中 实 
现 了 二 分 查找 算法 并 高 效 地 完成 了 这 个 任务 。 
关于 二 分 查找 算法 的 完整 讨论 ， 包 括 它 的 正确 性 、 性 能 分 析 及 其 应 用 ， 请 见 3.1 节 。 





1.1.10.1 二 分 查找 

我 们 会 在 3.2 节 中 详细 学 习 二 分 查找 算法 ， 但 此 处 先 简单 地 描述 一 下 。 算 法 是 由 静态 方法 
rank() 实现 的 ， 它 接受 一 个 整数 键 和 一 个 已 经 有 序 的 int 数组 作为 参数 。 如 果 该 键 存在 于 数组 中 
则 返回 它 的 索引 ， 和 否则 返回 -1。 算 法 使 用 两 个 变量 1o 和 hi ， 并 保证 如 果 键 在 数组 中 则 它 一 定 在 
a[1o. .hi] 中 ， 然 后 方法 进入 一 个 循环 ,不断 将 数组 的 中 间 键 (索引 为 mid ) 和 被 查找 的 键 比较 。 
如 果 被 查找 的 键 等 于 a[mid] ， 返 回 mid; 否则 算法 就 将 查找 范围 缩小 一 半 ， 如 果 被 查找 的 键 小 于 
a[mid] 就 继续 在 左 半边 查找 ， 如 果 被 查找 的 键 大 于 a[mid] 就 继续 在 右 半边 查找 。 算 法 找到 被 查找 
的 键 或 是 查找 范围 为 空 时 该 过 程 结束 。 二 分 查找 之 所 以 快 是 因为 它 只 需 检 查 很 少 几 个 条 目 (相对 于 
数组 的 大 小 ) 就 能 够 找到 目标 元 素 ( 或 者 确认 目标 元 素 不 存在 ) 。 在 有 序数 组 中 进行 二 分 查找 的 示 
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例如 图 1.1.7 所 示 。 
1.1.10.2 ”开发 用 例 

对 于 每 个 算法 的 实现 ， 我 们 都 会 开发 一 个 用 例 main(0) 函数 ， 并 在 书 中 或 是 本 书 的 网 站 上 提供 一 
个 示例 输入 文件 来 帮助 读者 学 习 该 算法 并 检测 它 的 性 能 。 在 这 个 例子 中 ， 这 个 用 例会 从 命令 行 指定 的 
文件 中 读 取 多 个 整数 ， 并 会 打印 出 标准 输入 中 所 有 不 存在 于 该 文件 中 的 整数 。 我 们 使 用 了 图 1.1.8 所 
示 的 几 个 较 小 的 测试 文件 来 展示 它 的 行为 ， 这 些 文件 也 是 图 1.1.7 中 的 跟踪 和 例子 的 基础 。 我 们 会 使 
用 较 大 的 测试 文件 来 模拟 真实 应 用 并 测试 算法 的 性 能 (请 见 1.1.10.3 节 ) 。 


对 23 的 命中 查找 
lo mid hi 
10 11 12 16 18 23 29 33 48 54 57 68 77 84 98 
lo mid hi 
10 11 12 16 18 23 29 tinyW.txt tinyT,txt 
1o midhi 84 23 
YY 48 50 
18 23 29 68 10 
10 99 
对 50 的 未 命中 查找 18 18 
1o mid hi 98 23 
10 11 12 16 18 23 29 33 48 54 57 68 77 84 98 | 不 存在 于 
1o mid hi tinyW.txt 
54 11 
48 54 57 68 77 84 98 2 3 
id 
lo midhi 33 7 
48 54 57 16 13 
ene -| 
48 29 7 
hi lo 77 
y y 68 
ec i 46 
图 1.1.8 为 BinarySearch 的 测试 用 例 2 
图 1.1.7 有 序数 组 中 的 二 分 查找 准备 的 小 型 测试 文件 47 


1.1.10.3 ”和 白 名 单 过 滤 

如 果 可 能 ， 我 们 的 测试 用 例 都 会 通过 模拟 实际 情况 来 展示 当前 算法 的 必要 性 。 这 里 该 过 程 被 称 
为 白 名 单 过 滤 。 具 体 来 说 ， 可 以 想象 一 家 信用 卡 公 司 ， 它 需要 检查 客户 的 交易 账号 是 否 有 效 。 为 此 ， 
它 需 要 : 

口 将 客户 的 账号 保存 在 一 个 文件 中 ， 我 们 称 它 为 白 名 单 ; 

口 从 标准 输入 中 得 到 每 笔 交 易 的 账号 ; 

口 使 用 这 个 测试 用 例 在 标准 输出 中 打印 所 有 与 任何 客户 无 关 的 账号 , 公司 很 可 能 拒绝 此 类 交易 。 

在 一 家 有 上 百 万 客户 的 大 公司 中 ， 需 要 处 理 数 百 万 甚至 更 多 的 交易 都 是 很 正常 的 。 为 了 模拟 这 
种 情况 ,我 们 在 本 书 的 网 站 上 提供 了 文件 largeW.txt ( 100 万 个 整数 ) 和 largeT.txt ( 1000 万 个 整数 ) 
其 基本 情况 如 图 1.1.9 所 示 。 
1.1.10.4 ”性 能 

一 个 程序 只 是 可 用 往往 是 不 够 的 。 例 如 ， 以 下 rankQO， 的 实现 也 可 以 很 简单 ， 它 会 检查 数组 的 
每 个 元 素 ， 甚 至 都 不 需要 数组 是 有 序 的 : 


30 > 


48 
49 
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public static int rankCint key, int[] a) 


的 
for (int i = 0; i < a.length; i++) 
if (a[i] == key) return i; 
return -1; 


有 了 这 个 简单 易 懂 的 解决 方案 ， 我 们 为 什 
么 还 需要 归并 排序 和 二 分 查找 呢 ? 你 在 完成 练 
习 1.1.38 时 会 看 到 ， 计 算 机 用 rank (0) 方法 的 
暴力 实现 处 理 大 量 输入 ( 比如 含有 100 万 个 条 
目的 白 名 单 和 1000 万 条 交易 ) 非常 慢 。 没 有 
如 二 分 查找 或 者 归并 排序 这 样 的 高 效 算法 ， 解 
决 大 规模 的 白 名 单 问 题 是 不 可 能 的 。 良 好 的 性 
能 常常 是 极为 重要 的 ， 因 此 我 们 会 在 1.4 节 中 
为 性 能 研究 做 一 些 铺 热 ， 并 会 分 析 我 们 学 习 的 
所 有 算法 的 性 能 特点 ( 包括 2.2 节 的 归并 排序 
和 3.1 节 中 的 二 分 查找 ) 。 

目前 ， 我 们 在 这 里 粗略 地 勾勒 出 我 们 的 
编程 模型 的 目标 是 ， 确 保 你 能 够 在 计算 机 上 运 
行 类 似 于 BinarySearch 的 代码 ， 使 用 它 处 理 我 
们 的 测试 数据 并 为 适应 各 种 情况 修改 它 ( 比如 
本 节 练 习 中 所 描述 的 一 些 情况 ) 以 完全 理解 它 
的 可 应 用 性 。 我 们 的 编程 模型 就 是 设计 用 来 
简化 这 些 活动 的 ， 这 对 各 种 算法 的 学 习 至 关 
重要 。 


1.1.11 展望 


largeW.txt largeT.txt 
489910 944443 
18940 293674 
774392 572153 
490636 600579 
125544 499569 
407391 984875 
115771 763178 
992663 295754 
923282 44696 
176914 207807 
217904 138910 
571222 903531 
519039 140925 
395667 699418 不 存 竹 干 
和 遍 由 759984 
199694 largeW. txt 
774549 
100 万 个 int 值 ” 635871 
161828 
805380 
1000 万 个 int 值 


% java BinarySearch largeW.txt < largeT.txt 
499569 
984875 
295754 
207807 
140925 
161828 


3 675 966 个 int 值 


图 1.1.9 为 BinarySearch 测试 用 例 准 备 的 大 型 文件 


在 本 节 中 ， 我 们 描述 了 一 个 精巧 而 完整 的 编程 模型 ， 数 十 年 来 它 一 直 在 〈 并 且 现 在 仍 在 ) 为 广 
大 程序 员 服 务 。 但 现代 编程 技术 已 经 更 进一步 。 前 进 的 这 一 步 被 称 为 数据 抽象 ， 有 时 也 被 称 为 面向 
对 象 编程 ， 它 是 我 们 下 一 节 的 主题 。 简 单 地 说 ， 数 据 抽象 的 主要 思想 是 鼓励 程序 定义 自己 的 数据 类 
型 (一 系列 值 和 对 这 些 值 的 操作 ) ， 而 不 仅仅 是 那些 操作 预定 义 的 数据 类 型 的 静态 方法 。 

面向 对 象 编程 在 最 近 几 十 年 得 到 了 广泛 的 应 用 ， 数据 抽象 已 经 成 为 现代 程序 开发 的 核心 。 我 们 


在 本 书 中 “拥抱 ”数据 抽象 的 原因 主要 有 三 。 


口 它 允 许 我 们 通过 模块 化 编程 复 用 代码 。 例 如 ， 第 2 章 中 的 排序 算法 和 第 3 章 中 的 二 分 查找 以 
及 其 他 算法 ， 都 允许 调用 者 用 同一 段 代 码 处 理 任 意 类 型 的 数据 ( 而 不 仅 限于 整数 ) ， 包 括 调 


用 者 自 定义 的 数据 类 型 。 


口 它 使 我 们 可 以 轻易 构造 多 种 所 谓 的 链 式 数据 结构 ， 它 们 比 数组 更 灵活 ， 在 许多 情况 下 都 是 高 


效 算法 的 基础 。 


口 借助 它 我 们 可 以 准确 地 定义 所 面 对 的 算法 问题 。 比 如 1.5 节 中 的 union-find 算法 、2.4 节 中 的 
优先 队列 算法 和 第 3 章 中 的 符号 表 算法 ， 它 们 解决 问题 的 方式 都 是 定义 数据 结构 并 高 效 地 实 
现 它们 的 一 组 操作 。 这 些 问题 都 能 够 用 数据 抽象 很 好 地 解决 。 


1.1 基础 编程 模型 < 31 


尽管 如 此 ， 但 我 们 的 重点 仍然 是 对 算法 的 研究 。 在 了 解 了 这 些 知 识 以 后 ， 我 们 将 学 习 面 向 对 象 


编程 中 和 我 们 的 使 命 相 关 的 另 一 个 重要 特性 。 


问 


问 


职 本 芝 可 项 


喧 可 


答疑 


[二 


什么 是 Java 的 字 节 码 ? 

它 是 程序 的 一 种 低级 表示 ， 可 以 运行 于 Java 的 虚拟 机 。 将 程序 抽象 为 字 节 码 可 以 保证 Java 程序 员 的 
代码 能 够 运行 在 各 种 设备 之 上 。 

Java 允许 整 型 溢出 并 返回 错误 值 的 做 法 是 错误 的 。 难 道 Java 不 应 该 自动 检查 溢出 吗 ? 

这 个 问题 在 程序 员 中 一 直 是 有 争议 的 。 简 单 的 回答 是 它们 之 所 以 被 称 为 原始 数据 类 型 就 是 因为 缺乏 
此 类 检查 。 避 免 此 类 问题 并 不 需要 很 高 深 的 知识 。 我 们 会 使 用 int 类 型 表示 较 小 的 数 (小 于 10 个 十 
进 制 位 ) 而 使 用 1ong 表示 10 亿 以 上 的 数 。 

Math .abs(-2147483648) 的 返回 值 是 什么 ? 

-2147483648。 这 个 奇怪 的 结果 (但 的 确 是 真 的 ) 就 是 整数 溢出 的 典型 例子 。 

如 何 才 能 将 一 个 double 变量 初始 化 为 无 穷 大 ? 

可 以 使 用 Java 的 内 置 常数 : Double.POSITIVE_INFINITY 和 Doub1le.NEGATIVE_INFINITY。 

能 够 将 doub1e 类 型 的 值 和 int 类 型 的 值 相互 比较 吗 ? 

不 通过 类 型 转换 是 不 行 的 ， 但 请 记 住 Java 一 般 会 自动 进行 所 需 的 类 型 转换 。 例 如 ， 如 果 x 的 类 型 是 
int 且 值 为 3, 那 么 表达 式 (x<3.1) 的 值 为 true 一 一 Java 会 在 比较 前 将 x 转换 为 double 类 型 ( 因为 3.1 
是 一 个 double 类 型 的 字面 量 ) 。 

如 果 使 用 一 个 变量 前 没有 将 它 初始 化 ， 会 发 生 什么 ? 

如 果 代 码 中 存在 任何 可 能 导致 使 用 未 经 初始 化 的 变量 的 执行 路 径 ，Java 都 会 抛 出 一 个 编译 异常 。 
Java 表达 式 1/0 和 1.0/0.0 的 值 是 什么 ? 

第 一 个 表达 式 会 产生 一 个 运行 时 除 零 异常 ( 它 会 终止 程序 ， 因 为 这 个 值 是 未 定义 的 ) ; 第 二 个 表达 
式 的 值 是 Infinity ( 无穷大 ) 。 

能 够 使 用 < 和 > 比较 String 变量 吗 ? 

不 行 ， 只 有 原始 数据 类 型 定义 了 这 些 运 算 符 。 请 见 1.1.2.3 节 。 

负数 的 除法 和 余数 的 结果 是 什么 ? 

表达 式 a/b 的 商会 向 0 取 整 ; a % b 的 余数 的 定义 是 (a/b)*b + a % b 恒 等 于 a。 例如 -14/3 和 
14/-3 的 商都 是 -4, 但 -14 % 3 是 -2, 而 14 % -3 是 2。 

为 什么 使 用 (a && b) 而 非 (a & b)? 

运算 符 &、| 和 和 分别 表示 整数 的 位 逻辑 操作 与 、 或 和 异 或 。 因 此 ，1016 的 值 为 14，10A6 的 值 为 
12。 在 本 书 中 我 们 很 少 ( 偶尔 ) 会 用 到 这 些 运 算 符 。&& 和 | | 运算 符 仅 在 独立 的 布尔 表达 式 中 有 效 ， 
原因 是 短路 求 值 法 则 : 表达 式 从 左 向 右 求 值 ， 一 旦 整个 表达 式 的 值 已 知 则 停止 求 值 。 

嵌 套 if 语句 中 的 二 义 性 有 问题 吗 ? 

是 的 。 在 Java 中 ， 以 下 语句 : 











if <exprl> if <expr2> <stmntA> else <stmntB> 
等 价 于 : 


if <exprJ> { if <expr2> <stmntA> else <stmntB> } 


问 


1 
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即使 你 想 表达 的 是 : 

if <expr1l> { if <expr2> <stmntA> } else <stmntB> 

避免 这 种 “无 主 的 ”else 陷阱 的 最 好 办 法 是 显 式 地 写 明 所 有 大 括号 。 

一 个 for 循环 和 它 的 while 形式 有 什么 区 别 ? 

for 循环 头 部 的 代码 和 for 循环 的 主体 代码 在 同一 个 代码 段 之 中 。 在 一 个 典型 的 for 循环 中 ， 递 
增 变 量 一 般 在 循环 结束 之 后 都 是 不 可 用 的 ; 但 在 和 它 等 价 的 while 循环 中 ， 递 增 变量 在 循环 结束 
之 后 仍然 是 可 用 的 。 这 个 区 别 常常 是 使 用 while 而 非 for 循环 的 主要 原因 。 

有 些 Java 程序 员 用 int a[] 而 不 是 int[] a 来 声明 一 个 数组 。 这 两 者 有 什么 不 同 ? 

在 Java 中 ， 两 者 等 价 且 都 是 合法 的 。 前 一 种 是 C 语言 中 数组 的 声明 方式 。 后 者 是 Java 提倡 的 方式 ， 
因为 变量 的 类 型 int[] 能 更 清楚 地 说 明 这 是 一 个 整 型 的 数组 。 

为 什么 数组 的 起 始 索 引 是 0 而 不 是 1? 

这 个 习惯 来 源 于 机 器 语言 ， 那 时 要 计算 一 个 数组 元 素 的 地 址 需要 将 数组 的 起 始 地址 加 上 该 元 素 的 索 
引 。 将 起 始 索 引 设 为 1 要 么 会 浪费 数组 的 第 一 个 元 素 的 空间 ， 要 么 会 花费 额外 的 时 间 来 将 索引 减 1。 
如 果 a[] 是 一 个 数组 ， 为 什么 Stdout.println(Ca) 打印 出 的 是 一 个 十 六 进 制 的 整数 ， 比 如 @ 
f62373 ， 而 不 是 数组 中 的 元 素 呢 ? 

问 得 好 。 该 方法 打印 出 的 是 这 个 数组 的 地 址 ， 不 幸 的 是 你 一 般 都 不 需要 它 。 

我 们 为 什么 不 使 用 标准 的 Java 库 来 处 理 输入 和 图 形 ? 

我 们 的 确 用 到 了 它们 ， 但 我 们 希望 使 用 更 简单 的 抽象 模型 。StdIn 和 StdDraw 背后 的 Java 标准 库 是 
为 实际 生产 设计 的 ， 这 些 库 和 它们 的 API 都 有 些 笨 重 。 要 想 知道 它们 真正 的 模样 ， 请 查看 StdIn.java 
和 StdDraw.java 的 代码 。 

我 的 程序 能 够 重新 读 取 标准 输入 中 的 值 吗 ? 

不 行 ， 你 只 有 一 次 机 会 ， 就 好 像 你 不 能 撤销 print1nQ 的 结果 一 样 。 

如 果 我 的 程序 在 标准 输入 为 空 之 后 仍然 尝试 读 取 ， 会 发 生 什么 ? 

会 得 到 一 个 错误 。StdIn.isEmpty() 能 够 帮助 你 检查 是 否 还 有 可 用 的 输入 以 避免 这 种 错误 。 

这 条 出 错 信息 是 什么 意思 ? 

Exception in thread "main" java.lang.NoClassDefFoundError: StdIn 

你 可 能 忘记 把 StdIn.java 文件 放 到 工作 目录 中 去 了 。 

在 Java 中 ， 一 个 静态 方法 能 够 将 另 一 个 静态 方法 作为 参数 吗 ? 

不 行 ， 但 问 得 好 ， 因 为 有 很 多 语言 都 能 够 这 么 做 。 


练习 
.1.1 给 出 以 下 表达 式 的 值 ; 


CO 15)7X2 
b.2.0e-6 * 100000000.1 
c. true && false || true && true 


1.1.2 给 出 以 下 表达 式 的 类 型 和 值 : 


a. (1 + 2.236)/2 
b.1+2+3+4.0 


1:1;5 


1.1.9 
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c.4.1 >= 4 

dl+2+"3" 

编写 一 个 程序 ， 从 命令 行 得 到 三 个 整数 参数 。 如 果 它 们 都 相等 则 打印 equal1， 否 则 打印 not 
equal。 


下 列 语句 各 有 什么 问题 ( 如 果 有 的 话 ) ? 

a.if (a > b) then c = 0; 

村 

c.if (a> b)c= 0; 

d.if (a > b) c= 0 else b = 0; 

编写 一 段 程序 ， 如 果 double 类 型 的 变量 x 和 y 都 严格 位 于 0 和 1 之 间 则 打印 true， 否 则 打印 
false, 


下 面 这 段 程序 会 打印 出 什么 ? 


i a 
攻克 
for (Cint 1 = 0; 1 <= 15; i++) 
{ 
StdOut.print1n(f); 
f=f+9g; 
, g=f-g; | 54 | 


分 别 给 出 以 下 代码 段 打 印 出 的 值 : 
a.double t = 9.0; 
while (Math.abs(t - 9.0/t) > .001) 
ts COOFE 4 aly 
StdOut.printf("%.5f\n", t); 
b. int sum = 0; 
for (int i1 = 1; 1 < 1000; i++) 
for (Cint j = 0; j < 1; j++) 
SUm++; 
StdOut.printinCsum); 
c.int sum = 0; 
for (int 1 = 1; 1 < 1000; i *= 2) 
for (int j = 0; j < 1000; j++) 
SUm++; 
Stdout.printlnCsum) ; 


下 列 语句 会 打印 出 什么 结果 ?给 出 解释 。 

a. System.out.printin('b'); 

b.System.out.printin('b' + 'c'); 

c.System.out.printin((char) ('a’' + 4)); 

编写 一 段 代 码 ， 将 一 个 正 整 数 N 用 二 进 制 表示 并 转换 为 一 个 String 类 型 的 值 s。 

解答 : Java 有 一 个 内 置 方 法 Integer.toBinaryString(N) 专门 完成 这 个 任务 , 但 该 题 的 目的 就 
是 给 出 这 个 方法 的 其 他 实现 方法 。 下 面 就 是 一 个 特别 简洁 的 答案 : 

String s ="" | 


for (int ns N; n> 0; n /= 2) | 55 | 
Ss= (n%2)+s; 
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1110 


1,1.11 


41412 


1.1.13 
1.1.14 
1.1.15 


本 


全 1217 


1:1.18 


1.1.19 


下 面 这 段 代码 有 什么 问题 ? 
int[] a; 
for (int i = 0; i < 10; i++) 
a[i] = 1 * ii 
解答 : 它 没有 用 new 为 a[] 分 配 内 存 。 这 段 代 码 会 产生 一 个 variable a might not have 
been initialized 的 编译 错误 。 
编写 一 段 代 码 ， 打 印 出 一 个 二 维 布尔 数组 的 内 容 。 其 中 ,使 用 * 表示 真 ， 空 格 表示 假 。 打 印 出 
行 号 和 列 号 。 
以 下 代码 段 会 打印 出 什么 结果 ? 


int[] a = new int[10] ; 

for Cint 1 = 0 1 < 10; 和) 
a[i] a9 = 1 

for (int 1 = 0; 1 < 10; i++) 
a[i] = a[a[i]]; 

for Cint 1 =m 0 1 T 10; i147) 
System.out.println(Ci) ; 


编写 一 段 代 码 ， 打 印 出 一 个 M 行 N 列 的 二 维 数组 的 转 置 ( 交换 行 和 列 ) 。 

编写 一 个 静态 方法 190) , 接受 一 个 整 型 参数 N, 返回 不 大 于 log;N 的 最 大 整数 。 不 要 使 用 Math 库 。 
编写 一 个 静态 方法 histogram() ， 接 受 一 个 整 型 数组 a[] 和 一 个 整数 M 为 参数 并 返回 一 个 大 小 
为 M 的 数组 ,其 中 第 1 个 元 素 的 值 为 整数 1 在 参数 数组 中 出 现 的 次 数 。 如 果 a[] 中 的 值 均 在 0 到 M-1 
之 间 ， 返 回 数组 中 所 有 元 素 之 和 应 该 和 a.1ength 相等 。 

给 出 exR1(6) 的 返回 值 : 

public static String exR1LCint n) 

多 


hn。 


if (n <= 0) return 
return exR1(n-3) + n + exR1(n-2) + ni 


} 
找 出 以 下 递归 函数 的 问题 : 


public static String exR2(int n) 


和 
String s = exR2(n-3) + Nn + exR2(n-2) + ni 
if (Cn <= 0) return ™; 
return s; 

J 


答 : 这 段 代 码 中 的 基础 情况 永远 不 会 被 访问 。 调 用 exR2(3) 会 产生 调用 exR2(0) 、exR2(-3) 和 
exR2(-6) ， 循 环 往复 直到 发 生 StackOverflowError。 
请 看 以 下 递归 函数 : 


public static int mystery(int a, int b) 

{ 
if (b == 0) return 0; 
if (b % 2 == 0) return mystery(at+a, b/2); 
return mystery(at+ta, b/2) + ai 


} 

mystery(2，25) 和 mystery(3，11) 的 返回 值 是 多 少 ? 给 定 正 整 数 a 和 b, mystery(a,b) 
计算 的 结果 是 什么 ?将 代码 中 的 + 替换 为 * 并 将 return 0 改 为 return 1， 然 后 回答 相同 
的 问题 。 

在 计算 机 上 运行 以 下 程序 : 


1.1.20 
21 
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public class Fibonacci 
public static long FCint N) 

if (CN == 0) return 0; 

i CN = 1) Petournh Ls 
return F(N-1) + F(N-2); 
a static void main(String[] args) 
for Cint N = 0; N < 100; N++) 
Stdout.printlnCN + " " + FCN)); 

} 
计算 机 用 这 段 程序 在 一 个 小 时 之 内 能 够 得 到 FCN) 结果 的 最 大 N 值 是 多 少 ? 开发 FCN) 的 一 
个 更 好 的 实现 ， 用 数组 保存 已 经 计算 过 的 值 。 
编写 一 个 递归 的 静态 方法 计算 1nCVI) 的 值 。 
编写 一 段 程序 ， 从 标准 输入 按 行 读 取 数 据 ， 其 中 每 行 都 包含 一 个 名 字 和 两 个 整数 。 然 后 用 
printf() 打印 一 张 表格 ,每 行 的 若干 列 数 据 包括 名 字 、 两 个 整数 和 第 一 个 整数 除 以 第 二 个 整数 
的 结果 ， 精 确 到 小 数 点 后 三 位 。 可 以 用 这 种 程序 将 棒球 球 手 的 击 球 命中 率 或 者 学 生 的 考试 分 数 
制 成 表格 。 
使 用 1.1.6.4 节 中 的 rankQ 递归 方法 重新 实现 BinarySearch 并 跟踪 该 方法 的 调用 。 每 当 该 方法 
被 调用 时 ， 打 印 出 它 的 参数 1o 和 hi 并 按照 递归 的 深度 缩 进 。 提 示 : 为 递归 方法 添加 一 个 参数 
来 保存 递归 的 深度 。 
为 BinarySearch 的 测试 用 例 添加 一 个 参数 : + 打印 出 标准 输入 中 不 在 白 名 单 上 的 值 ; -， 则 打 
印 出 标准 输入 中 在 白 名 单 上 的 值 。 
给 出 使 用 欧 几 里 德 算 法 计算 105 和 24 的 最 大 公约 数 的 过 程 中 得 到 的 一 系列 p 和 9g 的 值 。 扩 展 该 
算法 中 的 代码 得 到 一 个 程序 Euclid， 从 命令 行 接受 两 个 参数 ， 计 算 它们 的 最 大 公约 数 并 打印 出 每 
次 调用 递归 方法 时 的 两 个 参数 。 使 用 你 的 程序 计算 1 111 111 和 1 234 567 的 最 大 公约 数 。 
使 用 数学 归纳 法 证 明 欧 几 里 德 算法 能 够 计算 任意 一 对 非 负 整 数 p 和 9g 的 最 大 公约 数 。 


图 提高 是 


1.1.26 
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将 三 个 数字 排序 。 假 设 a、b、c 和 都 是 同一 种 原始 数字 类 型 的 变量 。 证 明 以 下 代码 能 够 将 a、 
b、c 按照 升序 排列 : 
Cb 
下 二 天 区 二 十 
mE 从属 
二 项 分 布 。 估 计 用 以 下 代码 计算 binomia1(100，50) 将 会 产生 的 递归 调用 次 数 : 
public static double binomial(int N, int k, double p) 
{ 

if (CN == 0 && k == 0) return 1.0; and if (N<0 || k < 0) return 0.0; 

return (1.0 - p)*binomial(N-1, k, p) + p*binomial(N-1, k-1); 
上 
将 已 经 计算 过 的 值 保存 在 数组 中 并 给 出 一 个 更 好 的 实现 。 
删除 重复 元 素 。 修 改 BinarySearch 类 中 的 测试 用 例 来 删 去 排序 之 后 白 名 单 中 的 所 有 重复 元 素 。 
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等 值 键 。 为 BinarySearch 类 添加 一 个 静态 方法 rank QO), 它 接受 一 个 键 和 一 个 整 型 有 序数 组 ( 可 
能 存在 重复 键 ) 作为 参数 并 返回 数组 中 小 于 该 键 的 元 素数 量 ， 以 及 一 个 类 似 的 方法 count() 来 
返回 数组 中 等 于 该 键 的 元 素 的 数量 。 注 意 : 如 果 i 和 j 分 别 是 rank(Ckey,a) 和 count(key,a) 
的 返回 值 ， 那 么 a[i. .i+j-1] 就 是 数组 中 所 有 和 key 相等 的 元 素 。 

数组 练习 。 编 写 一 段 程序 ， 创建 一 个 Nx WN 的 布尔 数组 a[] [] 。 其 中 当 i 和 j 互 质 时 (没有 相同 
因子 ) ，a[ 让 [j] 为 true， 否则 为 false。 

随机 连接 。 编 写 一 段 程 序 ， 从 命令 行 接 受 一 个 整数 N 和 double 值 p (0 到 1 之 间 ) 作为 参数 ， 
在 一 个 圆 上 画 出 大 小 为 0.05 且 间 距 相 等 的 N 个 点 ,然后 将 每 对 点 按照 概率 p 用 灰 线 连接 。 
直方 图 。 假设 标准 输入 流 中 含有 一 系列 double 值 。 编 写 一 段 程 序 ， 从 命令 行 接受 一 个 整数 V 和 
两 个 double 值 / 和 7。 将 (1,， 门 分 为 YX 段 并 使 用 StdDraw 画 出 输入 流 中 的 值 落 人 每 段 的 数量 的 
直方 图 。 

天 阵 库 。 编 写 一 个 Matrix 库 并 实现 以 下 APT: 


public class Matrix 





static double dot(double[] x, double[] y) 向 量 点 乘 
static double[][] mult(double[][] a, double[][] b) 矩阵 和 和 矩 阵 之 积 
static double[][] transpose(double[][] a) 转 置 矩阵 
static double[] mult(double[][] a, double[] x) 矩阵 和 向 量 之 积 
static double[] mult(double[] y, double[][] a) 向 量 和 和 矩阵 之 积 


编写 一 个 测试 用 例 ， 从 标准 输入 读 取 矩阵 并 测试 所 有 方法 。 

过 滤 。 以 下 哪些 任务 需要 ( 在 数组 中 ， 比 如 ) 保存 标准 输入 中 的 所 有 值 ? 哪些 可 以 被 实现 为 一 
个 过 滤器 且 仅 使 用 固定 数量 的 变量 和 固定 大 小 的 数组 ( 和 NN 无 关 ) ? 在 每 个 问题 中 ， 输 入 都 来 
自 于 标准 输入 且 含 有 NN 个 0 到 1 的 实数 。 

口 打印 出 最 大 和 最 小 的 数 

口 打印 出 所 有 数 的 中 位 数 

口 打印 出 第 小 的 数 ，k 小 于 100 

口 打印 出 所 有 数 的 平方 和 

口 打印 出 YX 个 数 的 平均 值 

口 打印 出 大 于 平均 值 的 数 的 百分比 

口 将 YX 个 数 按照 升序 打印 

口 将 YX 个 数 按照 随机 顺序 打印 


图 实验 是 


1.1.35 


模拟 找 贷 子 。 以 下 代码 能 够 计算 每 种 两 个 人 子 之 和 的 准确 概率 分 布 : 
int SIDES = ‘0; 
double[] dist = new double[2*SIDES+1]; 
for (Cint i1 = 1; i <= SIDES: i++) 
for (int j = 1; j <= SIDES; j++) 
dist[i+j] += 1.0; 


for (int k = 2; k <= 2*SIDES; k++) 
dist[k] /= 36.0; 
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dist[i] 的 值 就 是 两 个 角子 之 和 为 i 的 概率 。 用 实验 模拟 NN 次 找 骨 子 ， 并 在 计算 两 个 1 到 
6 之 间 的 随机 整数 之 和 时 记录 每 个 值 的 出 现 频 率 以 验证 它们 的 概率 。N 要 多 大 才能 够 保证 你 
的 经 验 数据 和 准确 数据 的 吻合 程度 达到 小 数 点 后 三 位 ? 
1.1.36 乱 序 检查 。 通 过 实验 检查 表 1.1.10 中 的 乱 序 代码 是 否 能 够 产生 预期 的 效果 。 编 写 一 个 程序 
ShuffleTest， 接 受命 令 行 参 数 M 和 N， 将 大 小 为 M 的 数组 打 乱 N 次 且 在 每 次 打 乱 之 前 都 将 数组 
重新 初始 化 为 a[i] = i。 打 印 一 个 Mx M 的 表格 ,对 于 所 有 的 列 j， 行 i 表示 的 是 i 在 打 乱 后 
落 到 j 的 位 置 的 次 数 。 数 组 中 的 所 有 元 素 的 值 都 应 该 接近 于 N/M。 
1.1.37 ”糟糕 的 打 乱 。 假设 在 我 们 的 乱 序 代码 中 你 选择 的 是 一 个 0 到 N-1 而 非 i 到 N-1 之 间 的 随机 整数 。 
证 明 得 到 的 结果 并 非 均匀 地 分 布 在 N! 种 可 能 性 之 间 。 用 上 一 题 中 的 测试 检验 这 个 版 本 。 
1.1.38 二 分 查找 与 暴力 查找 。 根 据 1.1.10.4 节 给 出 的 暴力 查找 法 编写 一 个 程序 BruteForceSearch， 在 你 
的 计算 机 上 比较 它 和 BinarySearch 处 理 largeW.txt 和 largeT.txt 所 需 的 时 间 。 
1.1.39 ”随机 匹配 。 编 写 一 个 使 用 BinarySearch 的 程序 ， 它 从 命令 行 接受 一 个 整 型 参数 T， 并 会 分 别针 
对 N=10 ”、10*、10 ”和 10" 将 以 下 实验 运行 了 遍 : 生成 两 个 大 小 为 N 的 随机 6 位 正 整 数 数组 并 找 
出 同时 存在 于 两 个 数组 中 的 整数 的 数量 。 打 印 一 个 表格 ， 对 于 每 个 W， 给 出 了 次 实验 中 该 数量 
的 平均 值 。 
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1.2 ”数据 抽象 


数据 类 型 指 的 是 一 组 值 和 一 组 对 这 些 值 的 操作 的 集合 。 目 前 ,我们 已 经 详细 讨论 过 Java 的 原始 
数据 类 型 : 例如 , 原始 数据 类 型 int 的 取 值 范围 是 -2” 到 2”-1 之 间 的 整数 , int 的 操作 包括 +、*、-、 
/、%、< 和 >。 原 则 上 所 有 程序 都 只 需要 使 用 原始 数据 类 型 即 可 ,但 在 更 高 层次 的 抽象 上 编写 程序 
会 更 加 方便 。 在 本 节 中 ， 我 们 将 重点 学 习 定 义 和 使 用 数据 类 型 ， 这 个 过 程 也 被 称 为 数据 抽象 ( 它 是 
对 1.1 节 所 述 的 函数 抽象 风格 的 补充 ) 。 

Java 编程 的 基础 主要 是 使 用 class 关键 字 构 造 被 称 为 引用 类 型 的 数据 类 型 。 这 种 编程 风格 也 称 
为 面向 对 象 编程 ， 因 为 它 的 核心 概念 是 对 象 ， 即 保存 了 某 个 数据 类 型 的 值 的 实体 。 如 果 只 有 Java 的 
原始 数据 类 型 ， 我 们 的 程序 会 在 很 大 程度 上 被 限制 在 算术 计算 上 ， 但 有 了 引用 类 型 ， 我 们 就 能 编写 
操作 字符 串 、 图 像 、 声 音 以 及 Java 的 标准 库 中 或 者 本 书 的 网 站 上 的 数 百 种 抽象 类 型 的 程序 。 比 各 种 
库 中 预定 义 的 数据 类 型 更 重要 的 是 Java 编程 中 的 数据 类 型 的 种 类 是 无 限 的 ， 因 为 你 能 够 定义 自己 的 
数据 类 型 来 抽象 任意 对 象 。 

抽象 数据 类 型 (ADT ) 是 一 种 能 够 对 使 用 者 隐藏 数据 表示 的 数据 类 型 。 用 Java 类 来 实现 抽象 
数据 类 型 和 用 一 组 静态 方法 实现 一 个 函数 库 并 没有 什么 不 同 。 抽 象 数据 类 型 的 主要 不 同 之 处 在 于 它 
将 数据 和 函数 的 实现 关联 ， 并 将 数据 的 表示 方式 隐藏 起 来 。 在 使 用 抽象 数据 类 型 时 ， 我 们 的 注意 力 
集中 在 API 描述 的 操作 上 而 不 会 去 关心 数据 的 表示 ; 在 实现 抽象 数据 类 型 时 ， 我 们 的 注意 力 集中 在 
数据 本 身 并 将 实现 对 该 数据 的 各 种 操作 。 

抽象 数据 类 型 之 所 以 重要 是 因为 在 程序 设计 上 它们 支持 封装 。 在 本 书 中 ， 我 们 将 通过 它们 : 

口 以 适用 于 各 种 用 途 的 API 形式 准确 地 定义 问题 ; 

口 用 API 的 实现 描述 算法 和 数据 结构 。 

我 们 研究 同一 个 问题 的 不 同 算法 的 主要 原因 在 于 它们 的 性 能 特点 不 同 。 抽 象 数据 类 型 正 适 合 于 
对 算法 的 这 种 研究 ， 因 为 它 确保 我 们 可 以 随时 将 算法 性 能 的 知识 应 用 于 实践 中 : 可 以 在 不 修改 任何 
用 例 代 码 的 情况 下 用 一 种 算法 替换 另 一 种 算法 并 改进 所 有 用 例 的 性 能 。 


1.2.1 使 用 抽象 数据 类 型 

要 使 用 一 种 数据 类 型 并 不 一 定 非 得 知道 它 是 如 何 实现 的 ， 所 以 我 们 首先 来 编写 一 个 使 用 一 种 名 
为 Counter (计数 器 ) 的 简单 数据 类 型 的 程序 。 它 的 值 是 一 个 名 称 和 一 个 非 负 整数 ， 它 的 操作 有 创 
建 对 象 并 初始 化 为 0、 当 前 值 加 1 和 获取 当前 值 。 这 个 抽象 对 象 在 许多 场景 中 都 会 用 到 。 例 如 ， 这 
样 一 个 数据 类 型 可 以 用 于 电子 记 票 软件 ， 它 能 够 保证 投票 者 所 能 进行 的 唯一 操作 就 是 将 他 选择 的 候 
选 人 的 计数 器 加 一 。 我 们 也 可 以 在 分 析 算 法 性 能 时 使 用 Counter 来 记录 基本 操作 的 调用 次 数 。 要 使 
用 Counter 对 象 ， 首 先 需要 了 解 应 该 如 何 定义 数据 类 型 的 操作 ， 以 及 在 Java 语言 中 应 该 如 何 创 建 
和 使 用 某 个 数据 类 型 的 对 象 。 这 些 机 制 在 现代 编程 中 都 非常 重要 ， 我 们 在 全 书 中 都 会 用 到 它们 ， 因 
此 请 仔细 学 习 我 们 的 第 一 个 例子 。 
1.2.1.1 抽象 数据 类 型 的 API 

我 们 使 用 应 用 程序 编程 接口 (API ) 来 说 明 抽 象 数据 类 型 的 行为 。 它 将 列 出 所 有 构造 函数 和 实 
例 方法 ( 即 操作 ) 并 简要 描述 它们 的 功用 ， 如 表 1.2.1 中 Counter 的 API 所 示 。 

尽管 数据 类 型 定义 的 基础 是 一 组 值 的 集合 ， 但 在 API 可 见 的 仅 是 对 它们 的 操作 ， 而 非 它们 的 意 
义 。 因 此 ， 抽 象 数据 类 型 的 定义 和 静态 方法 库 ( 请 见 1.1.6.3 节 ) 之 间 有 许多 共同 之 处 : 

口 两 者 的 实现 均 为 Java 类 ; 
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口 实例 方法 可 能 接受 0 个 或 多 个 指定 类 型 的 参数 ， 由 括号 表示 并 由 逗号 分 隔 ; 

口 它们 可 能 会 返回 一 个 指定 类 型 的 值 ， 也 可 能 不 会 ( 用 void 表示 ) 。 

当然 ,它们 也 有 三 个 显著 的 不 同 。 

口 API 中 可 能 会 出 现 若 和 干 个 名 称 和 类 名 相同 且 没 有 返回 值 的 函数 。 这 些 特殊 的 函数 被 称 为 构造 
函数 。 在 本 例 中 ，Counter 对 象 有 一 个 接受 一 个 String 参数 的 构造 函数 。 

口 实例 方法 不 需要 static 关键 字 。 它 们 不 是 静态 方法 一 一 它们 的 目的 就 是 操作 该 数据 类 型 中 








的 值 。 
口 某 些 实例 方法 的 存在 是 为 了 尊重 Java 的 习惯 一 一 我 们 将 此 类 方法 称 为 继承 的 方法 并 在 API 
中 将 它们 显示 为 灰色 。 


表 1.2.1 计数 器 的 API 


public class Counter 


Counter(String id) 创建 一 个 名 为 id 的 计数 器 
void increment() 将 计数 器 的 值 加 1 
int tallyQ© 该 对 象 创建 之 后 计数 器 被 加 1 的 次 数 
String toString() 对 象 的 字符 串 表 示 


和 静态 方法 库 的 API 一 样 ， 抽 象 数 据 类 型 的 API 也 是 和 用 例 之 间 的 一 份 契 约 ， 因 此 它 是 开 
发 任何 用 例 代 码 以 及 实现 任意 数据 类 型 的 起 点 。 在 本 例 中 ， 这 份 API 告诉 我 们 可 以 通过 构造 函数 
Counter()、 实 例 方法 increment() 和 tal1y() ， 以 及 继承 的 toString() 方法 使 用 Counter 类 
型 的 对 象 。 
1.2.1.2 ”继承 的 方法 

根据 Java 的 约定 ， 任 意 数 据 类 型 都 能 通过 在 API 中 包含 特定 的 方法 从 Java 的 内 在 机 制 中 获 
益 。 例 如 ，Java 中 的 所 有 数据 类 型 都 会 继承 toSstring() 方法 来 返回 用 String 表示 的 该 类 型 的 
值 。Java 会 在 用 + 运算 符 将 任意 数据 类 型 的 值 和 String 值 连接 时 调用 该 方法 。 该 方法 的 默认 实 
现 并 不 实用 ( 它 会 返回 用 字符 串 表 示 的 该 数据 类 型 值 的 内 存 地 址 ) ， 因 此 我 们 常常 会 提供 实现 来 
重 载 默认 实现 ， 并 在 此 时 在 API 中 加 上 toString 0) 方法。 此 类 方法 的 例子 还 包括 equals O 〇 、 
compareTo() 和 hashCode() (请 见 1.2.5.5 节 ) 。 
1.2.1.3 ”用例 代 码 

和 基于 静态 方法 的 模块 化 编程 一 样 ，API 允许 我 们 在 不 知道 实现 细节 的 情况 下 编写 调用 它 的 代 
人 码 (以 及 在 不 知道 任何 用 例 代码 的 情况 下 编写 实现 代码 ) 。1.1.7 节 介绍 的 将 程序 组 织 为 独立 模块 的 
机 制 可 以 应 用 于 所 有 的 Java 类 , 因此 它 对 基于 抽象 数据 类 型 的 模块 化 编程 与 对 静态 函数 库 一 样 有 效 。 
这 样 ， 只 要 抽象 数据 类 型 的 源 代码 .java 文件 和 我 们 的 程序 文件 在 同一 个 目录 下 ， 或 是 在 标准 Java 
库 中 ， 或 是 可 以 通过 import 语句 访问 ， 或 是 可 以 通过 本 书 网 站 上 介绍 的 classpath 机 制 之 一 访问 ， 
该 程序 就 能 够 使 用 这 个 抽象 数据 类 型 ， 模 块 化 编程 的 所 有 优势 就 都 能 够 继续 发 挥 。 通 过 将 实现 某 种 
数据 类 型 的 全 部 代码 封装 在 一 个 Java 类 中 ， 我 们 可 以 将 用 例 代码 推 向 更 高 的 抽象 层次 。 在 用 例 代码 
中 ， 你 需要 声明 变量 、 创 建 对 象 来 保存 数据 类 型 的 值 并 允许 通过 实例 方法 来 操作 它们 。 尽 管 你 也 会 
注意 到 它们 的 一 些 相似 之 处 ， 但 这 种 方式 和 原始 数据 类 型 的 使 用 方式 非常 不 同 。 
1.2.1.4 对 象 

一 般 来 说 ， 可 以 声明 一 个 变量 heads 并 将 它 通过 以 下 代码 和 Counter 类 型 的 数据 关联 起 来 : 


Counter heads; 
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但 如 何 为 它 赋 值 或 是 对 它 进 行 操 作 呢 ? 这 个 问题 的 答 一 个 Counter 对 象 
案 涉及 数据 抽象 中 的 一 个 基础 概念 : 对 象 是 能 够 承载 数据 类 Fr 


和 行为 。 对 象 的 状态 即 数据 类 型 中 的 值 。 对 象 的 标识 份 能 够 
将 一 个 对 象 区 别 于 另 一 个 对 象 。 可 以 认为 对 象 的 标识 就 是 wa 
它 在 内 存 中 的 位 置 。 对 象 的 行为 就 是 数据 类 型 的 操作 。 数 据 已 经 被 隐藏) 
类 型 的 实现 的 唯一 职责 就 是 维护 一 个 对 象 的 身份 ， 这 样 用 例 460 
代码 在 使 用 数据 类 型 时 只 需 遵 守 描 述 对 象 行为 的 API 即 可 ， 
而 无 需 关 注 对 象 状态 的 表示 方法 。 对 象 的 状态 可 以 为 用 例 代 | | 
码 提供 信息 ， 或 是 产生 某 种 副作用 ， 或 是 被 数据 类 型 的 操作 
所 改变 。 但 数据 类 型 的 值 的 表示 细节 和 用 例 代码 是 无 关 的 。 
引用 是 访问 对 象 的 一 种 方式 。Java 使 用 术语 引用 类 型 以 示 
和 原始 数据 类 型 (变量 和 值 相 关联 ) 的 区 别 。 不 同 的 Java | | 
实现 中 引用 的 实现 细节 也 各 不 相同 ， 但 可 以 认为 引用 就 是 内 pg 
存 地 址 ， 如 图 1.2.1 所 示 ( 简洁 起 见 ， 图 中 的 内 存 地 址 为 三 tails 
位 数 ) 。 heads 的 标识 
1.2.1.5 创建 对 象 460 本 

每 种 数据 类 型 中 的 值 都 存储 于 一 个 对 象 中 。 要 创建 (或 
实例 化 ) 一 个 对 象 ， 我 们 用 关键 字 new 并 紧 跟 类 名 以 及 0) 


tails 的 标识 
(或 在 括号 中 指定 一 系列 的 参数 ， 如 果 构造 函数 需要 的 话 ) a 全 机 和 


型 的 值 的 实体 。 所 有 对 象 都 有 三 大 重要 特性 : 状态 、 标 识 
heads EE 


两 个 Counter 对 象 


来 触发 它 的 构造 函数 。 构 造 函 数 没有 返回 值 ， 因 为 它 总 是 返 
回 它 的 数据 类 型 的 对 象 的 引用 。 每 当 用 例 调用 了 new()， 系 


统 都 会 : Meld 
口 为 新 的 对 象 分 配 内 存 空间 ; 图 下 获取 对 象 的 表示 
口 调用 构造 函数 初始 化 对 象 中 的 值 ; 


口 返回 该 对 象 的 一 个 引用 。 

在 用 例 代 码 中 ， 我 们 一 般 都 会 在 一 条 声明 语句 中 创建 一 个 对 象 并 通过 将 它 和 一 个 变量 关联 来 
初始 化 该 变量 ， 和 使 用 原始 数据 类 型 时 一 样 。 和 原始 数据 类 型 不 同 的 是 ， 变 量 关 联 的 是 指向 对 象 的 
引用 而 并 非 数 据 类 型 的 值 本 身 。 我 们 可 以 用 同一 个 类 创建 无 数 对 象 一 一 每 个 对 象 都 有 自己 的 标识 ， 
且 所 存储 的 值 和 另 一 个 相同 类 型 的 对 象 可 以 相同 也 可 以 不 同 。 例 如 ， 以 下 代码 创建 了 两 个 不 同 的 
Counter 对 名: 





Counter heads = new Counter("heads"); 
Counter tails = new Counter("tails"); 


抽象 数据 类 型 向 用 例 隐藏 了 值 的 表示 细节 。 可 以 假定 每 个 Counter 对 象 中 的 值 是 一 个 String 
类 型 的 名 称 和 一 个 int 计数 器 ， 但 不 能 编写 依赖 于 任何 特定 表示 方法 的 代码 (即使 知道 假定 是 否 正 


将 变量 和 对 象 的 引 确 一 一 也 许 计数 器 是 一 个 1ong 值 呢 ) 对 象 
Se 调用 构造 函数 来 创建 一 个 对 象 的 创建 过 程 如 图 1.2.2 所 示 。 
- WT 

实例 方法 的 意义 在 于 操作 数据 类 型 中 的 


图 1.2.2 创建 对 象 值 ， 因 此 Java 语言 提供 了 一 种 特别 的 机 制 来 
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-一 声明 语句 


触发 实例 方法 , 它 突出 了 实例 方法 和 对 象 之 间 的 联系 。 i 
具体 来 说 ,我 们 调用 一 个 实例 方法 的 方式 是 先 写 出 对 x - 
象 的 变量 名 ， 紧 接着 是 一 个 名 点， 然后 是 实例 方法 的 。 ”hes [ew Courter CheadsnJ 1 
名 称 ， 之 后 是 0 个 或 多 个 在 括号 中 并 由 逗号 分 隔 的 参 T 
数 。 实 例 方法 可 能 会 改变 数据 类 型 中 的 值 ， 也 可 能 只 触发 构造 函数 〈 创 建 一 个 对 象 ) 
是 访问 数据 类 型 中 的 值 。 实 例 方法 拥有 我 们 在 1.1.6.3 。 通过 语句 “没有 返回 值 

节 讨论 过 的 静态 方法 的 所 有 性 质 -一 参数 按 值 传递 ，。。 [needs | increnentO 
方法 名 可 以 被 重 载 ， 方 法 可 以 有 返回 值 ， 它 们 也 许 还 对象 名 人 发 一 个 实例 方 

会 产生 一 些 副作用 。 但 它们 还 有 一 个 特别 的 性 质 : 方 法 并 改变 对 象 的 值 

法 的 每 次 触发 都 是 和 一 个 对 象 相关 的 。 例 如 ， 以 下 代 通过 表达 式 

人 码 调 用 了 实例 方法 incrementQ 来 操作 Counter 对 - tails.tallyO 

象 heads ( 在 这 里 该 操作 会 将 计数 器 的 值 加 1 ) : 1 


heads.increment() ; 





对 象 名 。 触发 一 个 实例 广 
法 并 访问 对 象 的 值 
而 以 下 代码 会 调用 实例 方法 tallyQ 两 次 ， 第 一 通过 自动 类 型 转换 toString)) 
次 操作 的 是 Counter 对 象 heads， 第 二 次 是 Counter 
对 象 tai1s ( 这 里 该 操作 会 返回 计数 器 的 int 值 ) : Et 
触发 heads. toString() 
heads.tally() - tails.tallyQO); 
以 上 示例 的 调用 过 程 见 图 1.2.3。 2 
正如 这 些 例 子 所 示 , 在 用 例 中 实例 方法 和 静态 方法 的 调用 方式 完全 相同 可 以 通过 语句 (void 
方法 ) 也 可 以 通过 表达 式 (有 返回 值 的 方法 ) 。 静 态 方法 的 主要 作用 是 实现 函数 ; 非 静 态 (实例 ) 
方法 的 主要 作用 是 实现 数据 类 型 的 操作 。 两 者 都 可 能 出 现在 用 例 代码 中 , 但 很 容易 就 可 以 区 分 它们 ， 
因为 静态 方法 调用 的 开头 是 类 名 ( 按 习惯 为 大 写 ) ， 而 非 静态 方法 调用 的 开头 总 是 对 象 名 ( 按 习惯 
为 小 写 ) 。 表 1.2.2 总 结 了 这 些 不 同 之 处 。 





表 1.2.2 实例 方法 与 静态 方法 


实例 方法 静态 方法 
举例 heads.increment() Math .sqrt(2.0) 
调用 方式 对 象 名 类 名 
参量 对 象 的 引用 和 方法 的 参数 方法 的 参数 
主要 作用 访问 或 改变 对 象 的 值 计算 返回 值 


1.2.1.7 ”使 用 对 象 

通过 声明 语句 可 以 将 变量 名 赋 给 对 象 ， 在 代码 中 ,我们 不 仅 可 以 用 该 变量 创建 对 象 和 调用 实例 
方法 ， 也 可 以 像 使 用 整数 、 浮 点 数 和 其 他 原始 数据 类 型 的 变量 一 样 使 用 它 。 要 开发 某 种 给 定数 据 类 
型 的 用 例 ， 我 们 需要 : 

口 声明 该 类 型 的 变量 ， 以 用 来 引用 对 象 ; 

口 使 用 关键 字 new 触发 能 够 创建 该 类 型 的 对 象 的 一 个 构造 函数 ; 

口 使 用 变量 名 在 语句 或 表达 式 中 调用 实例 方法 。 

例如 ， 下 面 用 例 代码 中 的 Flips 类 就 使 用 了 Counter 类 。 它 接受 一 个 命令 行 参数 T 并 模拟 T 
次 掷 硬币 〈 它 还 调用 了 StdRandom 类 ) 。 除 了 这 些 直接 用 法 外 ， 我 们 可 以 和 使 用 原始 数据 类 型 的 
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变量 一 样 使 用 和 对 象 关联 的 变量 : 
口 赋值 语句 ; 
口 向 方法 传递 对 象 或 是 从 方法 中 返回 对 象 ; 
口 创建 并 使 用 对 象 的 数组 。 


public class Flips 


{ 
public static void main(String[] args) 
{ 
int T = Integer.parseInt(args[0]); % java Flips 10 
Counter heads = new Counter("heads"); 5 heads 
Counter tails = new Counter("tails"); 5 tails 
For 《imt, tT: m0 CE < Ts tt) delta: 0 


if (StdRandom.bernoull1i(0.5)) 


heads. increment(); % java Flips 10 


else tails.increment(); 8 heads 
StdOut.printin(heads); 2 Fobls 
StdOut.printin(tails); delta: 6 
int d = heads.tally©O - tails.tallyO; % java Flips 1000000 
StdOut.printin("delta: " + Math.abs(d)); 499710 heads 
1 500290 tails 
; delta: 580 


Counter 类 的 用 例 ， 模 拟 T 次 掷 硬币 


接 下 来 将 逐个 分 析 它 们 。 你 会 发 现 ， 你 需要 从 引用 而 非 值 的 。 counter cl; 


i a 、 ; 7 志 ， cl = new Counter("ones"); 
角度 去 考虑 问题 才能 理解 这 些 用 法 的 行为 。 TO 
1.2.1.8 赋值 语句 Counter c2 = cl; 


c2.increment() ; 


使 用 引用 类 型 的 赋值 语句 将 会 创建 该 引用 的 一 个 副本 。 赋 值 
语句 不 会 创建 新 的 对 象 ， 而 只 是 创建 男 一 个 指向 某 个 已 经 存在 的 Wi 
对 象 的 引用 。 这 种 情况 被 称 为 别名 : 两 个 变量 同时 指向 同一 个 对 
象 。 别 名 的 效果 可 能 会 出 乎 你 的 意料 ， 因 为 对 于 原始 数据 类 型 的 。 NE 
变量 ， 情 况 不 同 ， 你 必须 理解 其 中 的 差异 。 如 果 x 和 y 是 原始 数 c2 对 象 的 引用 
据 类 型 的 变量 ， 那 么 赋值 语句 x = y 会 将 y 的 值 复制 到 x 中 。 对 
于 引用 类 型 ， 复 制 的 是 引用 【而 非 实 际 的 值 ) 。 在 Java 中 ， 别 名 
是 bug 的 常见 原因 ， 如 下 例 所 示 (图 1.2.4) : 

Counter cl = new Counter("ones"); 


cl.increment() ; 
Counter c2 = cl; 


2.1 tO); a 
Spo di nmCciy， 811 | 一 es 
对 于 一 般 的 toString() 实现， 这 段 代码 将 会 打印 出 "2 

ones"。 这 可 能 并 不 是 我 们 想 要 的 ， 而 且 乍 一 看 有 些 奇怪 。 这 种 
问题 经 常 出 现在 使 用 对 象 经 验 不 足 的 人 所 编写 的 程序 之 中 (可 能 | | 


就 是 你 ， 所 以 请 集中 注意 力 ! ) 。 改 变 一 个 对 象 的 状态 将 会 影响 
到 所 有 和 该 对 象 的 别名 有 关 的 代码 。 我 们 习惯 于 认为 两 个 不 同 的 攻 二 着 济 
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原始 数据 类 型 的 变量 是 相互 独立 的 ， 但 这 种 感觉 对 于 引用 类 型 的 变量 并 不 适用 。 
1.2.1.9 ”将 对 象 作为 参数 

可 以 将 对 象 作为 参数 传递 给 方法 ， 这 一 般 都 能 简化 用 例 代 码 。 例 如 ， 当 我 们 使 用 Counter 对 
象 作为 参数 时 ， 本 质 上 我 们 传递 的 是 一 个 名 称 和 一 个 计数 器 ， 但 我 们 只 需要 指定 一 个 变量 。 当 我 
们 调用 一 个 需要 参数 的 方法 时 ， 该 动作 在 Java 中 的 效果 相当 于 每 个 参数 值 都 出 现在 了 一 个 赋值 
语句 的 右 侧 ， 而 参数 名 则 在 该 赋值 语句 的 左 人 出。 也 就 是 说 ，Java 将 参数 值 的 一 个 副本 从 调用 端 
传递 给 了 方法 ， 这 种 方式 称 为 按 值 传递 ( 请 见 1.1.6.3 节 ) 。 这 种 方式 的 一 个 重要 后 果 是 方法 无 
法 改变 调用 端 变量 的 值 。 对 于 原始 数据 类 型 来 说 ， 这 种 策略 正 是 我 们 所 期 望 的 〈 两 个 变量 互相 独 
立 ) ， 但 每 当 使 用 引用 类 型 作为 参数 时 我 们 创建 的 都 是 别名 ， 所 以 就 必须 小 心 。 换 句 话 说， 这 种 
约定 将 会 传递 引用 的 值 ( 复制 引用 ) ， 也 就 是 传递 对 象 的 引用 。 例 如 ， 如 果 我 们 传递 了 一 个 指向 
Counter 类 型 的 对 象 的 引用 ， 那 么 方法 虽然 无 法 改变 原始 的 引用 ( 比如 将 它 指向 另 一 个 Counter 
对 象 ) ， 但 它 能 够 改变 该 对 象 的 值 ， 比 如 通过 该 引用 调用 increment() 方法 。 
1.2.1.10 ”将 对 象 作 为 返回 值 

当然 也 能 够 将 对 象 作 为 方法 的 返回 值 。 方 法 可 以 将 它 的 参数 对 象 返 回 ， 如 下 面 的 例子 所 示 ， 也 
可 以 创建 一 个 对 象 并 返回 它 的 引用 。 这 种 能 力 非常 重要 ， 因 为 Java 中 的 方法 只 能 有 一 个 返回 值 一 一 
有 了 对 象 我 们 的 代码 实际 上 就 能 返回 多 个 值 。 


public class FlipsMax 
{ 
public static Counter max(Counter x, Counter y) 
T 
if (x.tally() > y.tally()) return x; 
else return y; 
} 


public static void main(String[] args) 
{ 
int T = Integer.parseInt(args[0]); 
Counter heads = new Counter("heads"); 
Counter tails = new Counter("tails"); 
for Cint ti OF tT als t+) 
if (StdRandom.bernoull1i(0.5)) 
heads.increment(); 
else tails.increment(); 


if (heads.tally() == tails.tally©O) 
Stdout.printlnC Tie' 7 
else Stdout.printlnCmax(Cheads，tai1s) + " wins"); 


% java FlipsMax 1000000 
500281 tails wins 


} 
: 


一 个 接受 对 象 作为 参数 并 将 对 象 作为 返回 值 的 静态 方法 的 例子 


1.2.1.11 数组 也 是 对 象 

在 Java 中， 所 有 非 原始 数据 类 型 的 值 都 是 对 象 。 也 就 是 说 ， 数 组 也 是 对 象 。 和 字符 串 一 样 ， 
Java 语言 对 于 数组 的 某 些 操作 有 特殊 的 支持 : 声明 、 初 始 化 和 索引 。 和 其 他 对 象 一 样 ， 当 我 们 将 数 
组 传递 给 一 个 方法 或 是 将 一 个 数组 变量 放 在 赋值 语句 的 右 侧 时 ， 我 们 都 是 在 创建 该 数组 引用 的 一 个 
副本 ， 而 非 数组 的 副本 。 对 于 一 般 情 况 ， 这 种 效果 正 合适 ， 因 为 我 们 期 望 方法 能 够 重新 安排 数组 的 
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条 目 并 修改 数组 的 内 容 ， 如 java.utils.Array.sort() 或 表 1.1.10 讨论 的 shuffle() 方法 。 
1.2.1.12 “对象 的 数组 

我 们 已 经 看 到 ， 数 组 元 素 可 以 是 任意 类 型 的 数据 : 我 们 实现 的 main() 方法 的 args[] 参数 就 
是 一 个 String 对 象 的 数组 。 创 建 一 个 对 象 的 数组 需要 以 下 两 个 步 又 : 

口 使 用 方 括号 语法 调用 数组 的 构造 函数 创建 数组 ; 

口 对 于 每 个 数组 元 素 调 用 它 的 构造 函数 创建 相应 的 对 象 。 

例如 ， 下 面 这 段 代 码 模拟 的 是 撕 骨 子 。 它 使 用 了 一 个 Counter 对 象 的 数组 来 记录 每 种 可 能 的 值 
的 出 现 次 数 。 在 Java 中 ， 对 象 数组 即 是 一 个 由 对 象 的 引用 组 成 的 数组 ， 而 非 所 有 对 象 本 身 组 成 的 数 
组 。 如 果 对 象 非常 大 , 那么 在 移动 它们 时 由 于 只 需要 操作 引用 而 非 对 象 本 身 , 这 就 会 大 大 提高 效率 ; 
如 果 对 象 很 小 ， 每 次 获取 信息 时 都 需要 通过 引用 反而 会 降低 效率 。 


public class Rolls 


{ 
public static void main(String[] args) 
1 
int T = Integer.parseInt(args[0]); 
nt SIDES .03 
Counter[] rolls = new Counter[SIDES+1]; 
for (int 1 = :i <= SIDES;: 1++) 
rolls[i] = new Counter(i + "'s"); 
for. int t= 0 t < T; ti) 
{ 
int result = StdRandom.uniform(1, SIDES+1); % java Rolls 1000000 
rolls[result].increment(); 167308 1's 
} 166540 2's 
for Cint 1 = 1; 1 <= SIDES; i++) 166087 3's 
StdOut.printin(rolls[i]); 167051 4's 
} 166422 5's 
} 166592 6's 


模拟 T 次 掷 仍 子 的 Counter 对 象 的 用 例 


有 了 这 些 对 象 的 知识 ， 运 用 数据 抽象 的 思想 编写 代码 ( 定义 和 使 用 数据 类 型 ， 将 数据 类 型 的 
值 封装 在 对 象 中 ) 的 方式 称 为 面向 对 象 编程 。 刚 才学 习 的 基本 概念 是 我 们 面向 对 象 编程 的 起 点 ， 
因此 有 必要 对 它们 进行 简单 的 总 结 。 数 据 类 型 指 的 是 一 组 值 和 一 组 对 值 的 操作 的 集合 。 我 们 会 将 
数据 类 型 实现 在 独立 的 Java 类 模块 中 并 编写 它们 的 用 例 。 对 象 是 能 够 存储 任意 该 数据 类 型 的 值 的 
实体 ， 或 数据 类 型 的 实例 。 对 象 有 三 大 关键 性 质 : 状态 、 标 识 和 行为 。 一 个 数据 类 型 的 实现 所 支 
持 的 操作 如 下 。 

口 创建 对 象 ( 创造 它 的 标识 ) : 使 用 new 关键 字 触 发 构造 函数 并 创建 对 象 ， 初 始 化 对 象 中 的 

值 并 返回 对 它 的 引用 。 

口 操作 对 象 中 的 值 (控制 对 象 的 行为 ， 可 能 会 改变 对 象 的 状态 ) : 使 用 和 对 象 关联 的 变量 调用 

实例 方法 来 对 对 象 中 的 值 进 行 操作 。 

口 操作 多 个 对 象 : 创建 对 象 的 数组 ， 像 原始 数据 类 型 的 值 一 样 将 它们 传递 给 方法 或 是 从 方法 中 

返回 ， 只 是 变量 关联 的 是 对 象 的 引用 而 非 对 象 本 身 。 

这 些 能 力 是 这 种 灵活 且 应 用 广泛 的 现代 编程 方式 的 基础 , 也 是 我 们 在 本 书 中 对 算法 研究 的 基础 。 
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1.2.2 ”抽象 数据 类 型 举例 

Java 语 言 内 置 了 上 千 种 抽象 数据 类 型 , 我 们 也 会 为 了 辅助 算法 研究 创建 许多 其 他 抽象 数据 类 型 。 
实际 上 ， 我 们 编写 的 每 一 个 Java 程序 实现 的 都 是 某 种 数据 类 型 (或 是 一 个 静态 方法 库 ) 。 为 了 控制 
复杂 度 ， 我 们 会 明确 地 说 明 在 本 书 中 用 到 的 所 有 抽象 数据 类 型 的 API ( 实际 上 并 不 多 ) 。 

在 本 节 中 ， 我 们 会 举 一 些 抽象 数据 类 型 的 例子 ， 以 及 它们 的 一 些 用 例 。 在 某 些 情况 下 ， 我 们 会 
节选 一 些 含有 数 十 个 方法 的 API 的 一 部 分 。 我 们 将 会 用 这 些 API 展示 一 些 实例 以 及 在 本 书 中 会 用 到 
的 一 些 方法 ， 并 用 它们 说 明 要 使 用 一 个 抽象 数据 类 型 并 不 需要 了 解 其 实现 细节 。 

作为 参考 ， 下 页 显示 了 我 们 在 本 书 中 将 会 用 到 或 开发 的 所 有 数据 类 型 。 它 们 可 以 被 分 为 以 下 
几 类 。 

口 java.1ang.* 中 的 标准 系统 抽象 数据 类 型 ， 可 以 被 任意 Java 程序 调用 。 

口 Java 标准 库 中 的 抽象 数据 类 型 ， 如 java.swt、java.net 和 javaio， 它 们 也 可 以 被 任意 Java 程 

序 调用 ， 但 需要 import 语句 。 

口 IO 处 理 类 抽象 数据 类 型 ， 和 StdIn 和 StdOut 类 似 ， 人 允许 我 们 处 理 多 个 输入 输出 流 。 

口 面向 数据 类 抽象 数据 类 型 ， 它 们 的 主要 作用 是 通过 封装 数据 的 表示 简化 数据 的 组 织 和 处 理 。 
稍 后 在 本 节 中 我 们 将 介绍 在 计算 几何 和 信息 处 理 中 的 几 个 实际 应 用 的 例子 ， 并 会 在 以 后 将 它 
们 作为 抽象 数据 类 型 用 例 的 范例 。 

口 集合 类 抽象 数据 类 型 , 它们 的 主要 用 途 是 简化 对 同一 类 型 的 一 组 数据 的 操作 。 我 们 将 会 在 1.3 
节 中 介绍 基本 的 Bag、Stack 和 Queue 类 ,在 第 2 章 中 介绍 优先 队列 (PQ ) 及 其 相关 的 类 ， 
在 第 3 章 和 第 5 章 中 分 别 介绍 符号 表 ( ST ) 和 集合 (SET ) 以 及 相关 的 类 。 

口 面向 操作 的 抽象 数据 类 型 ， 我 们 用 它们 分 析 各 种 算法 ， 如 1.4 节 和 1.5 节 所 述 。 

口 图 算法 相关 的 抽象 数据 类 型 ， 它 们 包括 一 些 用 来 封装 各 种 图 的 表示 的 面向 数据 的 抽象 数据 类 
型 ， 和 一 些 提供 图 的 处 理 算法 的 面向 操作 的 抽象 数据 类 型 。 

这 个 列表 中 并 没有 包含 我 们 将 在 练习 中 遇 到 的 某 些 抽象 数据 类 型 ， 读 者 可 以 在 本 书 的 索引 中 找 
到 它们 。 另 外 ,如 1.2.4.1 节 所 述 , 我 们 常常 通过 描述 性 的 前 缀 来 区 分 各 种 抽象 数据 类 型 的 多 种 实现 。 
从 整体 上 来 说 ,我 们 使 用 的 抽象 数据 类 型 说 明 组 织 并 理解 你 所 使 用 的 数据 结构 是 现代 编程 中 的 重要 
因素 。 

一 般 的 应 用 程序 可 能 只 会 使 用 这 些 抽象 数据 类 型 中 的 5 ~ 10 个 。 在 本 书 中 ， 开 发 和 组 织 抽象 
数据 类 型 的 主要 目标 是 使 程序 员 们 在 编写 用 例 时 能 够 轻易 地 利用 它们 的 一 小 部 分 。 [74| 
1.2.2.1 几何 对 象 

面向 对 象 编程 的 一 个 典型 例子 是 为 几何 对 象 设计 数据 类 型 。 例 如 ， 表 1.2.3 至 表 1.2.5 中 的 API 
为 三 种 常见 的 几何 对 象 定义 了 相应 的 抽象 数据 类 型 : Point2D (平面 上 的 点 ) 、Interval11D ( 直线 
上 的 间隔 ) 、Interva12D (平面 上 的 二 维 间隔 ， 即 和 数 轴 对 齐 的 长 方形 ) 。 和 以 前 一 样 ， 这 些 API 
都 是 自 文档 化 的 ， 它 们 的 用 例 十 分 容易 理解 ， 列 在 了 表 1.2.5 的 后 面 。 这 有 段 代码 从 命令 行 读 取 一 个 
Interval12D 的 边界 和 一 个 整数 7， 在 单位 正方 形 内 随机 生成 了 个 点 并 统计 落 在 间隔 之 内 的 点 数 ( 用 
来 估计 该 长 方形 的 面积 ) 。 为 了 表现 效果 ， 用 例 还 画 出 了 间隔 和 落 在 间隔 之 外 的 所 有 点 。 这 种 计算 
方法 是 一 个 模型 , 它 将 计算 几何 图 形 的 面积 和 体积 的 问题 转化 为 了 判定 一 个 点 是 否 落 在 该 图 形 中 ( 稍 
稍 简单 ,但 仍然 不 那么 容易 ) 。 我 们 当然 也 能 为 其 他 几何 对 象 定义 API， 比 如 线段 、 三 角形 、 多 边 形 、 
圆 等 ， 不 过 实现 它们 的 相关 操作 可 能 十 分 有 挑战 性 。 本 节 未 尾 的 练习 会 考察 其 中 几 个 例子 。 
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java.lang 中 的 标准 Java 系统 类 型 


Integer 
Double 
String 


StringBuilder 
其 他 Java 数据 类 型 
java.awt.Color 
java.awt.Font 
java.net.URL 
java.io.File 
我 们 的 标准 I/O 类 型 
Er 
Out 


Draw 


用 于 用 例 的 面向 数据 的 数据 类 型 


Point2D 
IntervallD 
Interval2D 
Date 
Transaction 

用 于 算法 分 析 的 数据 类 型 
Counter 
Accumulator 
VisualAccumulator 


Stopwatch 


public class Point2D 


下 压 栈 

先进 先 出 (FIFO ) 队列 
包 

优先 队列 

索引 优先 队列 

符号 表 

集合 

符号 表 (字符 串 键 ) 


无 向 图 

有 向 图 

边 (加权) 

无 向 图 ( 加权) 
边 (有 了 向， 加 权 ) 
图 (有 向 ， 加权) 


动态 连通 性 

路 径 的 深度 优先 搜索 
连通 分 量 

路 径 的 广度 优先 搜索 

有 向 图 路 径 的 深度 优先 搜索 
有 向 图 路 径 的 广度 优先 搜索 
所 有 路 径 

拓扑 排序 

深度 优先 搜索 顶点 被 访问 的 
顺序 


环 的 搜索 
强 连 通 分 量 
最 小 生成 树 
最 短路 径 


集合 类 数据 类 型 
int 的 封装 类 Stack 
double 的 封装 类 Queue 
可 由 索引 访问 的 Bag 
char 值 序列 MinPQ，MaxPa 
字符 串 构造 类 IndexMinPQ IndexMaxPQ 
ST 
戎 名 SET 
字体 StringST 
面向 数据 的 图 数据 类 型 
文件 Graph 
Digraph 
输入 流 Edge 
输出 流 EdgeWeightedGraph 
绘图 类 DirectedEdge 
EdgeWeightedDigraph 
平面 上 的 点 面向 操作 的 图 数据 类 型 
一 维 间隔 UF 
二 维 间隔 DepthFirstPaths 
日 和 
换 位 BreadthFirstPaths 
DirectedDFS 
计数 器 DirectedBFS 
累加 器 TransitiveClosure 
可 视察 加 器 Topological 
计时 器 DepthFirstOrder 
DirectedCycle 
SEE 
MST 
SP 
本 书 中 使 用 的 部 分 抽象 数据 类 型 
表 1.2.3 平面 上 的 点 的 API 
Point2D(double x, double y) 创建 一 个 点 
double xQO 上 时 
double yO ?坐标 
double rO) 
double “thetaO) 
double 


void drawQO 


distTo(Point2D that) 


极 径 ( 极 坐标 ) 

极 角 ( 极 坐标 ) 

从 该 点 到 that 的 欧 几 里 德 距离 
用 StdDraw 绘 出 该 点 
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表 1.2.4 直线 上 间隔 的 API 


public class IntervallD 


IntervallD(double 1o, double hi) 创建 一 个 间隔 
double length() 间隔 长 度 
boolean contains(double x) x 是 否 在 间隔 中 
boolean intersect(IntervallD that) 该 间隔 是 否 和 间隔 that 相交 
void draw() 用 StdDraw 绘 出 该 间隔 


表 1.2.5 平面 上 的 二 维 间隔 的 API 


public class Interva12D 


Interval2D(IntervallD x, IntervallD y) 创建 一 个 二 维 间隔 
double area(Q) 二 维 间 隔 的 面积 
boolean contains(Point2D p) p 是 否 在 二 维 间隔 中 
boolean intersect(Interval2D that) 该 间隔 是 否 和 二 维 间隔 that 相交 
void draw() 用 StdDraw 绘 出 该 二 维 间隔 


public static void main(String[] args) 





{ 
double xlo = Double.parseDouble(args[0]); 
double xhi = Double.parseDouble(args[1]); 
double ylo = Double.parseDouble(args[2]); 
double yhi = Double.parseDouble(args[3]); 
int T = Integer.parseInt(args[4]); 
IntervallD xinterval = new IntervallD(xlo, xhi); 
IntervallD yinterval = new IntervallD(ylo, yhi); 
Interval2D box = new Interval2D(x, y); | 
box.drawO; 
Counter c = new Counter("hits"); 
for Cint Et.= 0 t < TT ttF) 
{ 
double x = Math.random(O); 
double y = Math.random() ; 
Point2D p = new Point(x, y); 
if (box.contains(p)) c.increment(); 
else p.draw(); 
StdOut.printin(c); 2 Sh 有 
StdOut.printin(box.area()); % java Interval2D .2 .5 .5 .6 10000 
} 297 hits 
.03 
Interva12D 的 测试 用 例 


处 理 几何 对 象 的 程序 在 自然 世界 模型 、 科 学 计算 、 电 子 游戏 、 电 影 等 许多 应 用 的 计算 中 有 着 广 
泛 的 应 用 。 此 类 程序 的 研发 已 经 发 展 成 了 计算 几何 学 的 这 门 影响 深远 的 研究 学 科 。 在 贯穿 全 书 的 众 
多 例子 中 你 会 看 到 ， 我 们 在 本 书 中 学 习 的 许多 算法 在 这 个 领域 都 有 应 用 。 在 这 里 我 们 要 说 明 的 是 直 
接 表 示 几 何 对 象 的 抽象 数据 类 型 的 定义 并 不 困难 且 在 用 例 中 的 应 用 也 十 分 简洁 。 本 书 网 站 和 本 节 末 
尾 的 若干 练习 都 证 明了 这 一 点 。 
1.2.2.2 ”信息 处 理 

无 论 是 需要 处 理 数 百 万 信用 卡 交 易 的 银行 ， 还 是 需要 处 理 数 十 亿 点 击 的 网 络 分 析 公 司 ， 或 是 需 
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要 处 理 数 百 万 实验 观察 结果 的 科学 研究 小 组 ， 无 数 应 用 的 核心 都 是 组 织 和 处 理 信 息 。 抽 象 数据 类 型 
是 组 织 信息 的 一 种 自然 方式 。 虽 然 没 有 给 出 细节 ， 表 1.2.6 中 的 两 份 API 也 展示 了 商业 应 用 程序 中 
的 一 种 典型 做 法 。 这 里 的 主要 思想 是 定义 和 真实 世界 中 的 物体 相对 应 的 对 象 。 一 个 日 期 就 是 一 个 日 、 
月 和 年 的 集合 , 一 笔 交 易 就 是 一 个 客户 、 日 期 和 人 金额 的 集合 。 这 只 是 两 个 例子 , 我 们 也 可 以 为 客户 、 
时 间 、 地 点 、 商 品 、 服 务 和 其 他 任何 东西 定义 对 象 以 保存 相关 的 信息 。 每 种 数据 类 型 都 包含 能 够 创 
建 对 象 的 构造 函数 和 用 于 访问 其 中 数据 的 方法 。 为 了 简化 用 例 的 代码 ， 我 们 为 每 个 类 型 都 提供 了 两 
个 构造 函数 , 一 个 接受 适当 类 型 的 数据 , 男 一 个 则 能 够 解析 字符 串 中 的 数据 ( 细节 请 见 练习 1.2.19 ) 。 
和 以 前 一 样 ， 用 例 并 不 需要 知道 数据 的 表示 方法 。 用 这 种 方式 组 织 数 据 最 常见 的 理由 是 将 一 个 对 象 
和 它 相关 的 数据 变 成 一 个 整体 : 我 们 可 以 维护 一 个 Transaction 对 象 的 数组 ， 将 Date 值 作为 参数 
或 是 某 个 方法 的 返回 值 等 。 这 些 数据 类 型 的 重点 在 于 封装 数据 ， 同 时 它们 也 可 以 确保 用 例 的 代码 不 
依赖 于 数据 的 表示 方法 。 我 们 不 会 深究 这 种 组 织 信息 的 方式 ， 需 要 注意 的 只 是 这 种 做 法 ， 以 及 实现 
继承 的 方法 toSstring() 、compareTo() 、equals() 和 hashCode() 可 以 使 我 们 的 算法 处 理 任意 类 
型 的 数据 。 我 们 会 在 1.2.5.4 节 中 详细 讨论 继承 的 方法 。 例 如 , 我 们 已 经 注意 到 ， 根 据 Java 的 习惯 ， 
在 数据 结构 中 包含 一 个 toStringQ 的 实现 可 以 帮助 用 例 打印 出 由 对 象 中 的 值 组 成 的 一 个 字符 串 。 
我 们 会 在 1.3 节 、2.5 节 、3.4 节 和 3.5 节 中 用 Date 类 和 Transaction 类 作为 例子 考察 其 他 继承 的 
方法 所 对 应 的 习惯 用 法 。1.3 节 给 出 了 有 关 数 据 类 型 和 Java 语言 的 类 型 参数 ( 泛 型 ) 机 制 的 几 个 经 
典 例子 ， 它 们 都 遵循 了 这 些 习 惯用 法 。 第 2 章 和 第 3 章 也 都 利用 了 泛 型 和 继承 的 方法 来 实现 可 以 处 
理 任意 数据 类 型 的 高 效 排序 和 查找 算法 。 


表 1.2.6 商业 应 用 程序 中 的 示例 APl (日 期 和 交易 ) 


public class Date implements Comparable<Date> 


Date(int month, int day, int year) 创建 一 个 日 期 
Date(String date) 创建 一 个 日 期 (解析 字符 串 的 构造 函数 ) 
int month() 月 
int dayQO 日 
int year(Q) 年 
String toString() 对 象 的 字符 串 表示 
boolean equals(Object that) 该 日 期 和 that 是 否 相 同 
int compareTo(Date that) 将 该 日 期 和 that 比较 
int hashCode() 散 列 值 


public class Transaction implements Comparable<Transaction> 


Transaction(String who, Date when, 
double amount) 


Transaction(String transaction) 创建 一 笔 交易 〈 解析 字符 串 的 构造 函数 ) 
String who() 客户 名 
Date when() 交易 日 期 
double amount() 交易 金额 
String toString() 对 象 的 字符 串 表 示 
boolean equals(Object that) 该 笔 交 易 和 that 是 否 相同 
int compareTo(Date that) 将 该 笔 交 易 和 that 比较 


int hashCode() 散 列 值 
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每 当 遇 到 逻辑 上 相关 的 不 同类 型 的 数据 时 ， 你 都 应 该 考虑 像 刚才 的 例子 那样 定义 一 个 抽象 数据 
类 型 。 这 么 做 能 够 帮助 我 们 组 织 数据 并 在 一 般 应 用 程序 中 极 大 地 简化 使 用 者 的 代码 。 它 是 我 们 在 通 [78 
向 数据 抽象 之 路 上 迈 出 的 重要 一 步 。 为 
1.2.2.3 ”字符 串 

Java 的 String 是 一 种 重要 而 实用 的 抽象 数据 类 型 。 一 个 String 值 是 一 串 可 以 由 索引 访问 的 
char 值 。String 对 象 拥有 许多 实例 方法 ， 如 表 1.2.7 所 示 。 


表 1.2.7 ”Java 的 字符 串 API (部 分 ) 


Public class String 





String() 创建 一 个 空 字符 串 
int lengthO) 字符 串 长 度 
int charAt(Cint ji) 第 i 个 字符 
int indexOf(String p) p 第 一 次 出 现 的 位 置 ( 如 果 没 有 则 返回 -1 ) 
int indexOf(String p, int i) p 在 1i 个 字符 后 第 一 次 出 现 的 位 置 ( 如果 没 有 则 返回 -1 ) 
String concat(String t) 将 七 附 在 该 字符 串 末尾 
String substring(int i, int j) 该 字符 串 的 子 字 符 串 (第 i 个 字符 到 第 j-1 个 字符 ) 
String[] split(String delim) 使 用 delim 分 隔 符 切 分 字符 串 
int compareTo(String t) 比较 字符 串 
boolean equals(String t) 该 字符 串 的 值 和 上 的 值 是 否 相 同 
int hashCodeQO) 散 列 值 


string 值 和 字符 数组 类 似 ,但 两 者 是 不 同 的 。 数 组 能 够 通过 Java 语言 的 内 置 语法 访问 每 个 字 
符 ，String 则 为 索引 访问 、 字 符 串 长 度 以 及 其 他 许多 操作 准备 了 实例 方法 。 另 一 方面 ，Java 语言 
为 String 的 初始 化 和 连接 提供 了 特别 的 支持 : 我 们 可 以 直接 使 用 字符 串 字面 量 而 非 构造 函数 来 创 
建 并 初始 化 一 个 字符 串 ， 还 可 以 直接 使 用 + 运算 符 代 替 concat 0 方法 。 我 们 不 需要 了 解 实现 的 细 
节 ， 但 是 在 第 5 章 中 你 会 看 到 ， 了 解 某 些 方法 的 性 能 特点 。 String a 


= "Now Ts "; 
在 开发 字符 串 处 理 算 法 时 是 非常 重要 的 。 为 什么 不 直接 使 Se ee time “; 
用 字符 数组 代替 String 值 ? 对 于 任何 抽象 数据 类 型 ， 这 Sg 





个 问题 的 答案 都 是 一 样 的 : 为 了 使 代码 更 加 简洁 清晰 。 有 


a.length() 
了 String 类 型 ， 我 们 可 以 写 出 清晰 干净 的 用 例 代 码 而 无 a.charAt(4) | i | 
需 关心 字符 串 的 表示 方式 。 先 看 一 下 右 侧 这 段 短小 的 列表 ， a 
其 中 甚至 含有 一 些 需要 我 们 在 第 5 章 才 会 学 到 的 高 级 算法 a.substring(2, 5) ed 
才能 实现 的 强大 操作 。 例 如 ，sp1it0Q 方法 的 参数 可 以 是 mgt wy "now" 
让 放大 要 -7 a 由 开 0 » DEC [EE J 
正则 表达 式 (请 见 5.4 节 ) , “典型 的 字符 串 处 理 代 码 ”( 显 pd 


示 在 下 页 ) 中 sp1it0) 的 参数 是 "\\s+"， 它 表示 “一 个 或 
多 个 制 表 符 、 空 格 、 换 行 符 或 回 车 ”。 字符 串 操作 举例 [go ] 
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任 务 实 现 
判断 字符 串 是 否 是 一 条 回 文 public static boolean isPalindrome(String s) 
{ 


int N = s.lengthQO); 
For Cint 1 = Or 1 NZ 1 
if (s.charAt(i) != s.charAt(N-1-i)) 
return false; 
return true; 


从 一 个 命令 行 参数 中 提取 文件 名 和 ”String s = args[0]; 
扩展 名 int dot = s.indexOF("."); 
String base = s.substring(0, dot); 
String extension = s.substring(dot + 1, s.length()); 


打印 出 标准 输入 中 所 有 含有 通过 命 String query = args[0]; 
令 行 指定 的 字符 串 的 行 -i (!StdIn.isEmpty()) 


String s = StdIn.readLineQO; 
if (s.contains(query)) StdOut.println(s); 


} 
以 空白 字符 为 分 隔 符 从 StdIn 中 创 ”String input = StdIn.readA110) ; 
建 一 个 字符 串 数 组 String[] words = input.split("\\s+"); 


检查 一 个 字符 串 数组 中 的 元 素 是 否 public boolean isSorted(String[] a) 
已 按照 字母 表 顺 序 排列 


for (int 1 = 1; i < a.length; i++) 


if (a[i-1].compareTo(a[i]) > 0) 
return false; 


} 


return true; 
典型 的 字符 串 处 理 代码 


1.2.2.4 ”再 谈 输入 输出 

1.1 节 中 的 StdIn、StdOut 和 StdDraw 标准 库 的 一 个 缺点 是 对 于 任意 程序 ， 我 们 只 能 接受 一 个 
输入 文件 、 向 一 个 文件 输出 或 是 产生 一 幅 图 像 。 有 了 面向 对 象 编程 ， 我 们 就 能 定义 类 似 的 机 制 来 在 
一 个 程序 中 同时 处 理 多 个 输入 流 、 输 出 流 和 图 像 。 具 体 来 说 ， 我 们 的 标准 库 定 义 了 数据 类 型 In、 
out 和 Draw， 它 们 的 API 如 表 1.2.8 至 表 1.2.10 所 示 。 当 使 用 一 个 String 类 型 的 参数 调用 它们 的 
构造 阴 数 时 ，In 和 Out 会 首先 尝试 在 当前 目录 下 查找 指定 的 文件 。 如 果 找 不 到 ， 它 会 假设 该 参数 
是 一 个 网 站 的 名 称 并 尝试 连接 到 那个 网 站 ( 如 果 该 网 站 不 存在 ， 它 会 抛 出 一 个 运行 时 异常 ) 。 无 论 
哪 种 情况 ， 指 定 的 文件 或 网 站 都 会 成 为 被 创建 的 输入 或 输出 流 对 象 的 来 源 或 目标 ， 所 有 read*() 和 
print*() 方法 都 会 指向 那个 文件 或 网 站 ( 如 果 你 使 用 的 是 无 参数 的 构造 函数 ， 对 象 将 会 使 用 标准 
的 输入 输出 流 ) 。 这 种 机 制 使 得 单个 程序 能 够 处 理 多 个 文件 和 图 像 ; 你 也 能 将 这 些 对 象 赋 给 变量 ， 
将 它们 当做 方法 的 参数 、 作 为 方法 的 返回 值 或 是 创建 它们 的 数组 ， 可 以 像 操 作 任 何 类 型 的 对 象 那样 
操作 它们 。 下 页 所 示 的 程序 Cat 就 是 一 个 In 和 Out 的 用 例 ， 它 使 用 了 多 个 输入 流 来 将 多 个 输入 文 
件 归 并 到 同一 个 输出 文件 中 。In 和 0ut 类 也 包括 将 仅 含 int、double 或 String 类 型 值 的 文件 读 
取 为 一 个 数组 的 静态 方法 (请 见 1.3.1.5 节 和 练习 1.2.15 ) 。 


public class Cat 


public static void main(String[] args) 

{ // 将 所 有 输入 文件 复制 到 输出 流 ( 最 后 一 个 参数 ) 中 
Out out = new Out(args[args.length-1]1); 
for (int 1 = 0; i < args.length - 1; i++) 
{ // 将 第 i 个 输入 文件 复制 到 输出 流 中 

In in = new In(args[i]); 
String s = in.readA110); 
out.println(s); 
in.closeQO); 


out.close(); 


》 
站 


In 和 Out 的 用 例 示 例 
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% more inl.txt 
This is 

% more in2.txt 
a tiny 

test. 


% java Cat inl.txt in2.txt out.txt 


% more out.txt 
This is 

a tiny 

test. 


表 1.2.8 我们 的 输入 流 数据 类 型 的 API 


public class In 








InO) 从 标准 输入 创建 输入 流 


In(String name) 


boolean isEmpty() 
int readInt() 
double readDouble(Q) 


void close() 
注 ; In 对 象 也 支持 StdIn 所 支持 的 所 有 操作 。 


关闭 输入 流 


从 文件 或 网 站 创建 输入 流 

如 果 输 入 流 为 空 则 返回 true， 和 否则 返回 false 
读 取 一 个 int 类 型 的 值 

读 取 一 个 double 类 型 的 值 


表 1.2.9 我 们 的 输出 流 数据 类 型 的 API 


public class Out 








OutO) 从 标准 输出 创建 输出 流 
Out(String name) 从 文件 创建 输出 流 
void print(String s) 将 s 添加 到 输出 流 中 


void printin(String s) 
void print1inO 

void printf(String f, ...) 
void close() 


关闭 输出 流 


将 s 和 一 个 换行 符 添加 到 输出 流 中 
将 一 个 换行 符 添加 到 输出 流 中 
格式 化 并 打印 到 输出 流 中 


注 : Out 对 象 也 支持 StdOut 所 支持 的 所 有 操作 。 
表 1.2.10 ”我 们 的 绘图 数据 类 型 的 API 


public class Draw 
Draw() 


void line(double x0, double y0, double x1, double y1) 


void point(double x, double y) 


注 ; Draw 对 象 也 支持 StdDraw 所 支持 的 所 有 操作 。 
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1.2.3 ”抽象 数据 类 型 的 实现 

和 静态 方法 库 一 样 ， 我 们 也 需要 使 用 Java 的 类 (class ) 实现 抽象 数据 类 型 并 将 所 有 代码 放 人 
一 个 和 类 名 相同 并 带 有 .java 扩展 名 的 文件 中 。 文 件 的 第 一 部 分 语句 会 定义 表示 数据 类 型 的 值 的 实 
例 变 量 。 它们 之 后 是 实现 对 数据 类 型 的 值 的 操作 的 构造 函数 和 实例 方法 。 实例 方法 可 以 是 公共 的 (在 
API 中 说 明 ) 或 是 私有 的 ( 用 于 辅助 计算 ， 用 例 无 法 使 用 ) 。 一 个 数据 类 型 的 定义 中 可 能 含有 多 个 
构造 隐 数 ， 而 且 也 可 能 含有 静态 方法 ,特别 是 单元 测试 用 例 main()， 它 通常 在 调试 和 测试 中 很 实 
用 。 作 为 第 一 个 例子 ， 我 们 来 学 习 1.2.1.1 节 定 义 的 
Counter 抽象 数据 类 型 的 实现 。 它 的 完整 实现 ( 带 有 例 变 private final String name; 
注释 ) 如 图 1.2.5 所 示 , 在 对 它 的 各 个 部 分 的 讨论 中 ， 量 的 声明 一 private int count; 
我 们 还 将 该 图 作为 参考 。 本 书后 面 开 发 的 每 个 抽象 数 
据 类 型 的 实现 都 会 含有 和 这 个 简单 例子 相同 的 元 素 。 抽象 数据 类 型 中 的 实例 变量 是 私有 的 


public class Counter 


{ 






private final String name; 类 名 


实例 变量 一 一 一 private int count; 


构造 函数 public Counter(String id) 
{ name = id; } 


public void increment() 
{ count++; } 


实例 方法 public int tallyQO 
{ return count; } 
实例 变量 名 


public String toString(O) 
{ return count + " " + name; } 





测试 用 例 一 一 ~|public static void main(String[] args) 
此 
创建 并 初 -一 一 一 Counter heads = new Counter("heads"); 
始 化 对 象 二 Counter tails = new |Counter("tails"); 


租 发 构造 函数 





heads.increment QO; 


heads.increment(); , 
tails.increment(); 自动 调用 toStri oe 


StdOut.printin(heads + " " + tails) Fa 


StdOut.printin(heads.tally() +|tails.tallyQO -中 


改 调 用 
方法 


图 1.2.5 详解 数据 类 型 的 定义 类 


1.2.3.1 ”实例 变量 . 

要 定义 数据 类 型 的 值 ( 即 每 个 对 象 的 状态 ) ， 我 们 需要 声明 实例 变量 ， 声 明 的 方式 和 局 部 变量 差 
不 多 。 实 例 变量 和 你 所 熟悉 的 静态 方法 或 是 某 个 代码 段 中 的 局 部 变量 最 关键 的 区 别 在 于 : 每 一 时 刻 每 
个 局 部 变量 只 会 有 一 个 值 , 但 每 个 实例 变量 则 对 应 着 无 数值 ( 数据 类 型 的 每 个 实例 对 象 都 会 有 一 个 ) 。 
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这 并 不 会 产生 二 义 性 ， 因 为 我 们 在 访问 实例 变量 时 都 需要 通过 一 个 对 象 一 一 我 们 访问 的 是 这 个 对 象 的 
值 。 同 样 ， 每 个 实例 变量 的 声明 都 需要 一 个 可 见 性 修饰 符 。 在 抽象 数据 类 型 的 实现 中 ， 我 们 会 使 用 
private， 也 就 是 使 用 Java 语言 的 机 制 来 保证 向 使 用 者 隐藏 抽象 数据 类 型 中 的 数据 表示 ， 如 下 面 的 示 
例 所 示 。 如 果 该 值 在 初始 化 之 后 不 应 该 再 被 改变 ， 我 们 也 会 使 用 final。Counter 类 型 含有 两 个 实例 
变量 ,一 个 String 类 型 的 值 name 和 一 个 int 类 型 的 值 count。 如 果 我 们 使 用 pub1ic 修饰 这 些 实例 
变量 (在 Java 中 是 允许 的 ) , 那么 根据 定义 , 这 种 数据 类 型 就 不 再 是 抽象 的 了 ， 因 此 我 们 不 会 这 么 做 。 
1.2.3.2 ”构造 函数 

每 个 Java 类 都 至 少 含有 一 个 构造 函数 以 创建 一 个 对 象 的 标识 。 构 造 函 数 类 似 于 一 个 静态 方法 ， 但 
它 能 够 直接 访问 实例 变量 且 没 有 返回 值 。 一 般 来 说 ， 构 造 函 数 的 作用 是 初始 化 实例 变量 。 每 个 构造 机 | 8 
数 都 将 创建 一 个 对 象 并 向 调用 者 返回 一 个 该 对 象 的 引用 。 构 造 函 数 的 名 称 总 是 和 类 名 相同 。 我 们 可 以 ”L185 
和 重 载 方法 一 样 重 载 这 个 名 称 并 定义 签名 不 同 的 多 
个 构造 函数 。 如 果 没 有 定义 构造 函数 ， 类 将 会 隐 式 
定义 一 个 默认 情况 下 不 接受 任何 参数 的 构造 函数 并 
将 所 有 实例 变量 初始 化 为 默认 值 。 原 始 数字 类 型 的 


实例 变量 默认 值 为 0， 布尔 类 型 变量 为 false， 引 可 见 性 没有 指定 返 构造 函数 名 称 参数 
用 类 型 变量 为 nu11。 我 们 可 以 在 声明 语句 中 初始 。 修饰 符 pt Me 于 











化 这 些 实例 变量 并 改变 这 些 默 认 值 。 当 用 例 使 用 关 
键 字 new 时 ，Java 会 自动 触发 一 个 构造 函数 。 重 载 
构造 函数 一 般 用 于 将 实例 变量 由 默认 值 初始 化 为 用 
例 提 供 的 值 。 例 如 ，Counter 类 型 有 个 接受 一 个 参 
数 的 构造 函数 ， 它 将 实例 变量 name 初始 化 为 由 参 
数 给 定 的 值 (实例 变量 count 仍 将 被 初始 化 为 默认 
值 0) 。 构 造 函数 解析 如 图 1.2.6 所 示 。 
1.2.3.3 ”实例 方法 

实现 数据 类 型 的 实例 方法 ( 即 每 个 对 象 的 行为 ) 的 代码 和 1.1 节 中 实现 静态 方法 ( 函数 ) 的 代码 
完全 相同 。 每 个 实例 方法 都 有 一 个 返回 值 类 型 、 一 个 签名 ( 它 指定 了 方法 名 、 返 回 值 类 型 和 所 有 参数 
变量 的 名 称 ) 和 一 个 主体 〈 它 由 一 系列 语 名 组成， 包括 一 个 返回 语句 来 将 一 个 返回 类 型 的 值 传递 给 调 
用 者 ) 。 当 调用 者 触发 了 一 个 方法 时 ,方法 的 参数 ( 如 果 有 ) 均 会 被 初始 化 为 调用 者 所 提供 的 值 ， 
方法 的 语句 会 被 执行 ， 直 到 得 到 一 个 返回 值 并 且 将 该 值 返 回 给 调用 者 。 它 的 效果 就 好 像 调用 者 代码 中 
的 函数 调用 被 替换 为 了 这 个 返回 值 。 实 例 方法 的 所 有 这 些 行为 都 和 静态 方法 相同 ， 只 有 一 点 关键 的 不 
同 : 它们 可 以 访问 并 操作 实例 变量 。 如 何 指定 我 们 希望 使 用 的 对 象 的 实例 变量 ? 只 要 稍 加 思考 ， 就 能 
够 得 到 合理 的 答案 : 在 一 个 实例 方法 中 对 变量 的 引用 指 的 是 该 方法 的 变量 中 的 值 。 当 我 们 调用 heads. 
increment() 时 ，incrementQ 方法 中 的 代码 访问 的 是 heads 中 的 实例 变量 。 换 名 话说， 面向 对 象 编 


[pubiic] [Counter| ( [String id]) 
[ER ] 


初始 化 实例 变量 的 代码 
(count 将 会 被 初始 化 为 默认 值 0) 





1.2.6 ”详解 构造 函数 


程 为 Java 程序 增加 了 男 一 种 使 用 变量 的 重要 方式 。 








可 见 性 返回 
口 通过 触发 一 个 实例 方法 来 操作 该 对 象 的 值 。 和 ie 名 
这 与 调用 静态 方法 仅仅 是 语法 上 的 区 别 〈 请 
见 答疑 ) ， 但 在 许多 情况 下 它 颠覆 了 现代 程序 员 《ER 
对 程序 开发 的 思维 方式 。 你 会 看 到 ， 这 种 方式 与 RK 
实例 变量 名 


算法 和 数据 结构 的 研究 非常 契合 。 实 例 方法 解析 
如 图 1.2.7 所 示 。 


图 1.2.7 详解 实例 方法 
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1.2.3.4 “作用 域 
总 的 来 说 ， 我 们 在 实现 实例 方法 的 Java 代码 中 使 用 了 三 种 变量 : 





口 参数 变量 ; i 

口 局 部 变量 ; i class Example 实例 变量 

口 实例 变量 。 private int var; 

在 静态 方法 中 前 两 者 的 用 法 没有 变化 : St 
方法 的 签名 定义 了 参数 变量 ， 在 方法 被 调用 private void nethod10 
时 参数 方法 会 被 初始 化 为 调用 者 提供 的 值 ; Pat eS 
局 部 变量 的 声明 和 初始 化 都 在 方法 的 主体 中 。 。 局 半 刘 半生 i 实例 和 
参数 变量 的 作用 域 是 整个 方法 ; 局 部 变量 的 eo 
作用 域 是 当前 代码 段 中 它 的 定义 之 后 的 所 有 一 ~ 调用 实例 变量 
语句 。 实 例 变 量 则 完全 不 同 ( 如 右 侧 示例 所 
示 ) : 它们 为 该 类 的 对 象 保存 了 数据 类 型 的 TO 
值 ， 它 们 的 作用 域 是 整个 类 ( 如 果 出 现 二 义 ar 
性 ， 可 以 使 用 this 前 级 来 区 别 实例 变量 ) 。 调用 实例 变量 
理解 实例 方法 中 这 三 种 变量 的 区 别 是 理解 面 } 
向 对 象 编程 的 关键 。 实例 方法 中 的 实例 变量 和 局 部 变量 的 作用 范围 


1.2.3.5 API、 用 例 与 实现 
这 些 都 是 你 要 在 Java 中 构造 并 使 用 抽象 数据 类 型 所 需要 理解 的 基本 组 件 。 我 们 将 要 学 习 的 每 
个 抽象 数据 类 型 的 实现 都 会 是 一 个 含有 若干 私有 实例 变量 、 构 造 函 数 、 实 例 方法 和 一 个 测试 用 例 
的 Java 类 。 要 完全 理解 一 个 数据 类 型 ， 我 们 需要 它 的 API、 典 型 的 用 例 和 它 的 实现 。Counter 类 型 
的 总 结 请 见 表 1.2.11。 为 了 强调 用 例 和 实现 的 分 离 ， 我 们 一 般 会 将 用 例 独 立成 为 含有 一 个 静态 方法 
main() 的 类 ， 并 将 数据 类 型 定义 中 的 mainQ 〇 方法 预 留 为 一 个 用 于 开发 和 最 小 单元 测试 的 测试 用 例 
( 至 少 调用 每 个 实例 方法 一 次 ) 。 我 们 开发 的 每 种 数据 类 型 都 会 遵循 相同 的 步骤。 我 们 思考 的 不 是 
应 该 采取 什么 行动 来 达成 某 个 计算 性 的 目的 (4 如同 我 们 第 一 次 学 习 编程 时 那样 ) ， 而 是 用 例 的 需求 。 
我 们 会 按照 下 面 三 步 走 的 方式 用 抽象 数据 类 型 满足 它们 。 
口 定义 一 份 API: API 的 作用 是 将 使 用 和 实现 分 离 ， 以 实现 模块 化 编程 。 我 们 制定 一 份 API 的 目 
标 有 二 : 第 一 ， 我 们 和 希望 用 例 的 代码 清晰 而 正确 ， 事 实 上 ， 在 最 终 确 定 API 之 前 就 编写 一 些 
用 例 代 码 来 确保 所 设计 的 数据 类 型 操作 正 是 用 例 所 需要 的 是 很 好 的 主意 ; 第 二 ， 我 们 希望 能 
够 实现 这 些 操 作 ， 定 义 一 些 无 法 实现 的 操作 是 没有 意义 的 。 
口 用 一 个 Java 类 实现 API 的 定义 : 首先 我 们 选择 适当 的 实例 变量 ， 然 后 再 编写 构造 函数 和 实 
例 方法 。 
口 实现 多 个 测试 用 例 来 验证 前 两 步 做 出 的 设计 决定 。 
表 1.2.11 一 个 简单 计数 器 的 抽象 数据 类 型 


API public class Counter 


Counter(String id) 创建 一 个 名 为 id 的 计数 器 
void ;increment() 将 计数 器 的 值 加 1 
int tallyQO 计数 器 的 值 


String toString() 对 象 的 字符 串 表 示 
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( 续 ) 
典型 的 用 例 


public class Flips 
和 
public static void main(String[] args) 


int T = Integer.parseInt(args[0]); 
Counter heads = new Counter("heads"); 
Counter tails = new Counter("tails"); 
fom tint tC Ot Tt 

if (StdRandom.bernoul1i(0.5)) 

heads.increment(); 

else tails.increment(); 
StdOut.printlin(heads); 
StdOut.printin(tails); 
int d = heads.tally() - tails.tallyQO; 
StdOut.printin("delta: " + Math.abs(d)); 


数据 类 型 的 实现 使 用 方法 


public class Counter % java Flips 1000000 
{ 500172 heads 
private final String name; 499828 tails 
private int count; delta: 344 
public Counter(String id) 
{ name = id; } 
public void increment() 
{ count++; } 
public int tally() 
{ return count; } 
public String toString() 
{ return count + " " + name; } 


用 例 一 般 需 要 什么 操作 ?数据 类 型 的 值 应 该 是 什么 才能 最 好 地 支持 这 些 操 作 ? 这 些 基 本 的 判断 
是 我 们 开发 的 每 种 实现 的 核心 内 容 。 


1.2.4 更 多 抽象 数据 类 型 的 实现 

和 任何 编程 概念 一 样 ， 理 解 抽 象 数 据 类 型 的 威力 和 用 法 的 最 好 办 法 就 是 仔细 研究 更 多 的 例子 和 
实现 。 本 书 中 大 量 代码 是 通过 抽象 数据 类 型 实现 的 ， 因 此 你 的 机 会 很 多 ,但 是 一 些 更 简单 的 例子 能 
够 帮助 我 们 为 研究 抽象 数据 类 型 打 好 基础 。 
1.2.4.1 日 期 

表 1.2.12 是 我 们 在 表 1.2.6 中 定义 的 Date 抽象 数据 类 型 的 两 种 实现 。 简 单 起 见 ， 我 们 省 
略 了 解析 字符 串 的 构造 函数 ( 请 见 练习 1.2.19) 和 继承 的 方法 equals() (请 见 1.2.5.8 节 ) 、 
compareTo() (请 见 2.1.1.4 节 ) 和 hashCode() (请 见 练习 3.4.22 ) 。 表 1.2.12 中 左 侧 的 简单 实现 
将 日 、 月 和 年 设 为 实例 变量 ， 这 样 实例 方法 就 可 以 直接 返回 适当 的 值 ; 右 侧 的 实现 更 加 节省 空间 ， 
仅 使 用 了 一 个 int 变量 来 表示 一 个 日 期 。 它 将 d 日 、m 月 和 y 年 的 一 个 日 期 表示 为 一 个 混合 进 制 的 
整数 512y+32m+d。 用 例 分 辨 这 两 种 实现 的 区 别 的 一 种 方法 可 能 是 打破 我 们 对 日 期 的 隐 式 假设 : 第 
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二 种 实现 的 正确 性 基于 日 的 值 在 0 到 31 之 间 , 月 的 值 在 0 到 15 之 间 , 年 的 值 为 正 〈 在 实际 应 用 中 ， 
两 种 实现 都 应 该 检查 月 份 的 值 是 否 在 1 到 12 之 间 , 日 的 值 是 否 在 1 到 31 之 间 ， 以 及 例如 2009 年 6 
月 31 日 和 2 月 29 日 这 样 的 非法 日 期 尽管 这 么 做 要 费 些 工夫 ) 。 这 个 例子 的 主要 意思 是 说 明 我 们 
在 API 中 极 少 完整 地 指定 对 实现 的 要 求 〈 一 般 来 说 我 们 都 会 尽力 而 为 ， 这 里 还 可 以 做 得 更 好 ) 。 用 
例 要 分 辨 出 这 两 种 实现 的 区 别 的 另 一 种 方法 是 性 能 : 右 侧 的 实现 中 保存 数据 类 型 的 值 所 需 的 空间 较 
少 ， 代 价 是 在 向 用 例 按照 约定 的 格式 提供 这 些 值 时 花费 的 时 间 更 多 ( 需要 进行 一 两 次 算数 运算 ) 。 
这 种 交换 是 很 常见 的 : 某 些 用 例 可 能 偏爱 其 中 一 种 实现 ， 而 另 一 些 用 例 可 能 更 喜欢 另 一 种 ， 因 此 我 
们 两 者 都 要 满足 。 事 实 上 ， 本 书 中 反复 出 现 的 一 个 主题 就 是 我 们 需要 理解 各 种 实现 对 空间 和 时 间 的 
需求 以 及 它们 对 各 种 用 例 的 适用 性 。 在 实现 中 使 用 数据 抽象 的 一 个 关键 优势 是 我 们 可 以 将 一 种 实现 
替换 为 另 一 种 而 无 需 改 变 用 例 的 任何 代码 。 


表 1.2.12 一 种 封装 日 期 的 抽象 数据 类 型 以 及 它 的 两 种 实现 
API public class Date 











Date(int month, int day, int year) 创建 一 个 日 期 

int dayQO 日 

int month() 月 

int year() 年 

String toString() 对 象 的 字符 串 表 示 
测试 用 例 使 用 方法 

public static void main(String[] args) % java Date 12 31 1999 
计 12/31/1999 


int m = Integer.parseInt(args[0]); 
int d = Integer.parseInt(args[1]); 
int y = Integer.parseInt(args[2]); 
Date date = new Date(m, d, y); 
StdOut.printin(date); 


} 
数据 类 型 的 实现 数据 类 型 的 另 一 种 实现 

public class Date public class Date 

{ 
private final int month; private final int value; 
private final int day; public Date(int m, int d, int y) 
private final int year; { value = y*512 + m*32 + d; } 
public Date(int m, int d, int y) public int month() 
{month = mi day = d; year = y; } { return (value / 32) % 16; } 
public int month() public int day©O 
{ return month; } { return value % 32; } 
public int dayO public int year() 
{ return day; } { return value / 512; } 
public int yearQO) 
{ return year; } public String toString(O) 
public String toString() { return month() + "/" + dayO) 
{ return month() + "/" + dayO) + "/" + year(); 1} 

+ ear 了 } 
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1.2.4.2 ”维护 多 个 实现 
同一 份 API 的 多 个 实现 可 能 会 产生 维护 和 命名 问题 。 在 某 些 情况 下 ， 我 们 可 能 只 是 想 将 较 老 的 实 
现 替 换 为 改进 的 实现 。 而 在 另 一 些 情况 下 ， 我 们 可 能 需要 维护 两 种 实现 ， 一 种 适用 于 某 些 用 例 ， 另 一 
种 适用 于 男 一 些 用 例 。 实 际 上 ， 本 书 的 一 个 主要 目标 就 是 深入 讨论 若干 种 基本 抽象 数据 结构 的 实现 并 | 90 
衡量 它们 的 性 能 的 不 同 。 在 本 书 中 ， 我 们 经 常会 比较 同一 份 API 的 两 种 不 同 实 现在 同一 个 用 例 中 的 性 ”[91 
能 表现 。 为 此 ， 我 们 通常 采用 一 种 非 正式 的 命名 约定 。 
口 通过 前 级 的 描述 性 修饰 符 区 别 同一 份 API 的 不 同 实现 。 例 如 ， 我 们 可 以 将 表 1.2.12 中 的 
Date 实现 命名 为 BasicDate 和 Sma11Date， 我 们 可 能 还 希望 实现 一 种 能 够 验证 日 期 是 否 合 
法 的 SmartDate。 
口 维护 一 个 没有 前 级 的 参考 实现 ， 它 应 该 适合 于 大 多 数 用 例 的 需求 。 在 这 里 ， 大 多 数 用 例 应 该 
直接 会 使 用 Date。 
在 一 个 庞大 的 系统 中 ， 这 种 解决 方案 并 不 理想 ， 因 为 它 可 能 会 需要 修改 用 例 的 代码 。 例 如 ， 如 
果 需 要 开发 一 个 新 的 实现 ExtraSsmal1Date， 那 么 我 们 只 能 修改 用 例 的 代码 或 是 让 它 成 为 所 有 用 例 
的 参考 实现 。Java 有 许多 高 级 语言 特性 来 保证 在 无 需 修改 用 例 代码 的 情况 下 维护 多 个 实现 ， 但 我 们 
很 少 会 使 用 它们 ， 因 为 即使 Java 专家 使 用 起 它们 来 也 十 分 困难 ( 有 时 甚至 是 有 争议 的 ) ， 尤 其 是 同 
我 们 极为 需要 的 其 他 高 级 语言 特性 ( 泛 型 和 迭代 咒 ) 一 起 使 用 时 。 这 些 问题 很 重要 ( 例如 ， 和 忽略 它 
们 会 导致 千 禧 年 著名 的 Y2K 问题 ， 因 为 许多 程序 使 用 的 都 是 它们 自己 对 日 期 的 抽象 实现 ， 且 并 没 
有 考虑 到 年 份 的 头 两 位 数字 ) ， 但 是 次 究 它 们 会 使 我 们 大 大 偏离 对 算法 的 研究 。 
1.2.4.3 ”累加 器 
表 1.2.13 中 的 累加 器 API 定义 了 一 种 能 够 为 用 例 计算 一 组 数据 的 实时 平均 值 的 抽象 数据 类 型 。 
例如 ， 本 书 中 经 常会 使 用 该 数据 类 型 来 处 理 实验 结果 (请 见 1.4 节 ) 。 它 的 实现 很 简单 ， 它 维护 一 个 
int 类 型 的 实例 变量 来 记录 已 经 处 理 过 的 数据 值 的 数量 ， 以 及 一 个 double 类 型 的 实例 变量 来 记录 所 
有 数据 值 之 和 ， 将 和 除 以 数据 数量 即 可 得 到 平均 值 。 请 注意 该 实现 并 没有 保存 数据 的 值 一 一 它 可 以 用 
于 处 理 大 规模 的 数据 ( 甚至 是 在 一 个 无 法 全 部 保存 它们 的 设备 上 ) ， 而 一 个 大 型 系统 也 可 以 大 量 使 用 


表 1.2.13 一 种 能 够 累加 数据 的 抽象 数据 类 型 


API public class Accumulator 








Accumulator () 创建 一 个 累加 器 
void addDataValue(double val) 添加 一 个 新 的 数据 值 
double mean() 所 有 数据 值 的 平均 值 
String toString() 对 象 的 字符 串 表示 
典型 的 用 例 使 用 方法 
public class TestAccumulator % java TestAccumulator 1000 


Mean (1000 values): 0.51829 


% java TestAccumulator 1000000 
int T = Integer.parseInt(args[0]); Mean (1000000 values): 0.49948 


Accumulator a = new Accumulator(); % java TestAccumulator 1000000 


for Cint t= 0; EE Ts t++) M 1000000 村 : 0.50014 
a.addDataValue(StdRandom.random()); ph oe 


Stdout .println(Ca) ; 


public static void main(String[] args) 
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( 续 ) 
数据 类 型 的 实现 


public class Accumulator 
{ 
private double total; 
private int N; 
public void addDataValue(double val) 
{ 


N++; 
total += val; 


public double mean() 
{ return total/N; } 
public String toString() 
{ return "Mean (" + N+ " values): " 
+ String.format("%7.5f", mean()); } 


92 累加 器 。 这 种 性 能 特点 很 容易 被 忽视 ， 所 以 也 许 应 该 在 API 中 注 明 ， 因 为 一 种 存储 所 有 数据 值 的 实现 
93 | ”可 能 会 使 调用 它 的 应 用 程序 用 光 所 有 内 存 。 
1.2.4.4 可 视 化 的 累加 器 
表 1.2.14 所 示 的 可 视 化 累加 器 的 实现 继承 了 Accumulator 类 并 展示 了 一 种 实用 的 副作用 : 它 
用 StdDraw 画 出 了 所 有 数据 ( 灰色 ) 和 实时 的 平均 值 (红色 ) ， 见 图 1.2.8。 完 成 这 项 任务 最 简单 
的 办 法 是 添加 一 个 构造 函数 来 指定 需要 绘 出 的 点 数 和 它们 的 最 大 值 ( 用 于 调整 图 像 的 比例 ) 。 严 格 
说 来 ，VisualAccumulator 并 不 是 Accumulator 的 API 的 实现 ( 它 的 构造 函数 的 签名 不 同 且 产 生 


使 用 方法 


左 起 第 N 个 红 点 的 高 度 为 最 
靠 左 的 N 个 灰 点 的 平均 高 度 





从、 灰 点 的 高 度 
要 即 数据 点 的 值 % java TestVisualAccumulator 2000 
Mean (2000 values): 0.509789 


[94 | 图 1.2.8 ”可视化 累加 器 图 像 ( 另 见 彩 插 ) 
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了 一 种 不 同 的 副作用 ) 。 一 般 来 说 ， 我 们 会 仔细 而 完整 地 设计 API， 并 且 一 且 定 型 就 不 愿 再 对 它 做 
任何 改动 ， 因 为 这 有 可 能 会 涉及 修改 无 数 用 例 ( 和 实现 ) 的 代码 。 但 添加 一 个 构造 函数 来 取得 某 些 
功能 有 时 能 够 获得 通过 ， 因 为 它 对 用 例 的 影响 和 改变 类 名 所 产生 的 变化 相同 。 在 本 例 中 ， 如 果 已 经 
开发 了 一 个 使 用 Accumulator 的 用 例 并 大 量 调 用 了 addDataValue() 和 mean() ， 只 需 改变 用 例 的 
一 行 代码 就 能 享受 到 Visual1Accumulator 的 优势 。 


表 1.2.14 一 种 能 够 累加 数据 的 抽象 数据 类 型 (可 视 版 本 ， 另 见 彩 插 ) 


API public class VisualAccumulator 








VisualAccumulator(int trials, double max) 


void addDataValue(double val) 添加 一 个 新 的 数据 值 
double mean() 所 有 数据 的 平均 值 
String toString() 对 象 的 字符 串 表示 

典型 的 用 例 public class TestVisualAccumulator 
{ 
public static void main(String[] args) 
{ 
int T = Integer.parseInt(args[0]); 
VisualAccumulator a = new VisualAccumulator(T,1.0); 
for Cint t =:0,t < Ttt) 
a.addDataValue(StdRandom.random()); 
StdOut.printin(a); 
上 
站 
数据 类 型 的 实现 public class VisuatAccumulator 





Brivate 1 N; 


让 


public VisualAccumulator(int trials, double max) 





StdDraw. setXscale(0, trials); 
StdDraw.setYscale(0, max); 
StdDraw. setPenRadius(.005); 

} 

public void addDataValue(double val) 

{ 
N++; 
total += val; 
StdDraw.setPenColor(StdDraw.DARK_GRAY):; 
StdDraw.point(N, val); 
StdDraw.setPenColor (StdDraw. RED);; 
StdDraw.point(N, total/N); 

} 

public double mean() 

public String toStringO) 


// 和 Accumulator 相同 
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1.2.5 ”数据 类 型 的 设计 

抽象 数据 类 型 是 一 种 向 用 例 隐藏 内 部 表示 的 数据 类 型 。 这 种 思想 强 有 力 地 影响 了 现代 编程 。 我 
们 遇 到 过 的 众多 例子 为 我 们 研究 抽象 数据 类 型 的 高 级 特性 和 它们 的 Java 实现 打下 了 基础 。 简单 看 来 ， 
下 面 的 许多 话题 和 算法 的 学 习 关系 不 大 ， 因 此 你 可 以 跳 过 本 节 ， 在 今后 实现 抽象 数据 类 型 中 遇 到 特 
定 问 题 时 再 回 过 头 来 参考 它 。 我 们 的 目的 是 将 关于 设计 数据 类 型 的 重要 知识 集中 起 来 以 供 参考 ， 并 
为 本 书 中 的 所 有 抽象 数据 类 型 的 实现 做 铺垫 。 
1.2.5.1 封装 

面向 对 象 编程 的 特征 之 一 就 是 使 用 数据 类 型 的 实现 封装 数据 ， 以 简化 实现 和 隔离 用 例 开 发 。 封 
装 实现 了 模块 化 编程 ， 它 允许 我 们 : 

口 独立 开发 用 例 和 实现 的 代码 ; 

口 切换 至 改进 的 实现 而 不 会 影响 用 例 的 代码 ; 

口 支持 尚未 编写 的 程序 ( 对 于 后 续 用 例 ，API 能 够 起 到 指南 的 作用 ) 。 

封装 同时 也 隔离 了 数据 类 型 的 操作 ， 这 使 我 们 可 以 : 

口 限制 潜在 的 错误 ; 

口 在 实现 中 添加 一 致 性 检查 等 调试 工具 ; 

口 确保 用 例 代码 更 明晰 。 

一 个 封装 的 数据 类 型 可 以 被 任意 用 例 使 用 ， 因 此 它 扩展 了 Java 语言 。 我 们 所 提倡 的 编程 风格 是 
将 大 型 程序 分 解 为 能 够 独立 开发 和 调试 的 小 型 模块 。 这 种 方式 将 修改 代码 的 影响 限制 在 局 部 区 域 ， 
改进 了 我 们 的 软件 质量 。 它 也 促进 了 代码 复 用 ， 因 为 我 们 可 以 用 某 种 数据 类 型 的 新 实现 代替 老 的 实 
现 来 改进 它 的 性 能 、 准 确 度 或 是 内 存 消耗 。 同 样 的 思想 也 适用 于 许多 其 他 领域 。 我 们 在 使 用 系统 库 
时 常常 从 封装 中 受益 。Java 系统 的 新 实现 往往 更 新 了 多 种 数据 类 型 或 静态 方法 库 的 实现 ， 但 它们 的 
API 并 没有 变化 。 在 算法 和 数据 结构 的 学 习 中 ， 我 们 总 是 希望 开发 出 更 好 的 算法 ， 因 为 只 需 用 抽象 
数据 类 型 的 改进 实现 替换 老 的 实现 即 可 在 不 改变 任何 用 例 代 码 的 情况 下 改进 所 有 用 例 的 性 能 。 模 块 
化 编程 成 功 的 关键 在 于 保持 模块 之 间 的 独立 性 。 我 们 坚持 将 API 作为 用 例 和 实现 之 间 唯 一 的 依赖 点 
来 做 到 这 一 点 。 并 不 需要 知道 一 个 数据 类 型 是 如 何 实现 的 才能 使 用 它 ， 实 现 数据 类 型 时 也 应 该 假设 
使 用 者 除了 API 什么 也 不 知道 。 封 装 是 获得 所 有 这 些 优 势 的 关键 。 
1.2.5.2 ”设计 API 

构建 现代 软件 最 重要 也 最 有 挑战 的 一 项 任务 就 是 设计 API。 它 需要 经 验 、 思 考 和 反复 的 修改 ， 
但 设计 一 份 优秀 的 API 所 付出 的 所 有 时 间 都 能 从 调试 和 代码 复 用 所 节省 的 时 间 中 获得 回报 。 为 一 个 
小 程序 给 出 一 份 API 似乎 有 些 多 余 ， 但 你 应 该 按照 能 够 复 用 的 方式 编写 每 个 程序 。 理 想 情况 下 ， 一 
份 API 应 该 能 够 清楚 地 说 明 所 有 可 能 的 输入 和 副作用 ， 然 后 我 们 应 该 先 写 出 检查 实现 是 否 与 API 相 
符 的 程序 。 但 不 幸 的 是 ， 计 算 机 科学 理论 中 一 个 叫做 说 明 书 问题 ( specification problem ) 的 基础 结 
论说 明 这 个 目标 是 不 可 能 实现 的 。 简 单 地 说 ， 这 样 一 份 说 明 书 应 该 用 一 种 类 似 于 编程 语言 的 形式 语 
言 编写 。 而 从 数学 上 可 以 证 明 ， 判 定 这 样 两 个 程序 进行 的 计算 是 否 相 同 是 不 可 能 的 。 因 此 ,我 们 的 
API 将 是 与 抽象 数据 类 型 相关 联 的 值 以 及 一 系列 构造 函数 和 实例 方法 的 目的 和 副作用 的 自然 语言 描 
述 。 为 了 验证 我 们 的 设计 ， 我 们 会 在 API 附近 的 正文 中 给 出 一 些 用 例 代码 。 但 是 ， 这 些 宏观 概述 之 
中 也 隐藏 着 每 一 份 API 设计 都 可 能 落 入 的 无 数 陷阱 。 

口 API 可 能 会 难以 实现 : 实现 的 开发 非常 困难 ， 甚 至 不 可 能 。 
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口 API 可 能 会 难以 使 用 : 用 例 代码 甚至 比 没有 API 时 更 复杂 。 

口 API 的 范围 可 能 太 窜 : 缺少 用 例 所 需 的 方法 。 

口 API 的 范围 可 能 太 宽 : 包含 许多 不 会 被 任何 用 例 调 用 的 方法 。 这 种 缺陷 可 能 是 最 常见 的 ， 并且 

也 是 最 难以 避免 的 。API 的 大 小 一 般 会 随 着 时 间 而 增长 ， 因 为 向 已 有 的 API 中 添加 新 方法 很 
简单 ， 但 在 不 破坏 已 有 用 例 程序 的 前 提 下 从 中 删除 方法 却 很 困难 。 

口 API 可 能 会 太 粗 略 : 无 法 提供 有 效 的 抽象 。 

口 API 可 能 会 太 详细 : 抽象 过 于 细致 或 是 发 散 而 无 法 使 用 。 

口 API 可 能 会 过 于 依赖 某 种 特定 的 数据 表示 : 用 例 代码 可 能 会 因此 无 法 从 数据 表示 的 细节 中 解 

脱出 来 。 要 避免 这 种 缺陷 也 是 很 困难 的 ， 因 为 数据 表示 显然 是 抽象 数据 类 型 实现 的 核心 。 

这 些 考虑 有 时 又 被 总 结 为 另 一 句 格言 : 只 为 用 例 提 供 它 们 所 需要 的 ， 仅 此 而 已 。 
1.2.5.3 ”算法 与 抽象 数据 类 型 

数据 抽象 天 生 适 合算 法 研究 ， 因 为 它 能 够 为 我 们 提供 一 个 框架 ， 在 其 中 能 够 准确 地 说 明 一 个 算 
法 的 目的 以 及 其 他 程序 应 该 如 何 使 用 该 算法 。 在 本 书 中 ， 算 法 一 般 都 是 某 个 抽象 数据 类 型 的 一 个 实 
例 方法 的 实现 。 例 如 ， 本 章 开 头 的 白 名 单 例子 就 很 自然 地 被 实现 为 一 个 抽象 数据 类 型 的 用 例 。 它 进 
行 了 以 下 操作 : 

口 由 一 组 给 定 的 值 构造 了 一 个 SET (集合 ) 对 象 ; 

口 判定 一 个 给 定 的 值 是 否 存 在 于 该 集合 中 。 

这 些 操 作 封 装 在 StaticSETofInts 抽象 数据 类 型 中 ， 和 Whitelist 用 例 一 起 显示 在 表 1.2.15 中 。 
StaticSETofInts 是 更 一 般 也 更 有 用 的 符号 表 抽象 数据 类 型 的 一 种 特殊 情况 ,符号 表 抽象 数据 类 
型 将 是 第 3 章 的 重点 。 在 我 们 研究 过 的 所 有 算法 中 ， 二 分 查找 是 较为 适合 用 于 实现 这 些 抽象 数据 类 
型 的 一 种 。 和 1.1.10 节 中 的 BinarySearch 实现 比较 起 来 ， 这 里 的 实现 所 产生 的 用 例 代码 更 加 清晰 和 
高 效 。 例 如 ，StaticSETofInts 强制 要 求 数组 在 rank( 方法 被 调用 之 前 排序 。 有 了 抽象 数据 类 型 ， 
我 们 可 以 将 抽象 数据 类 型 的 调用 和 实现 区 分 开 来 ， 并 确保 任意 遵守 API 的 用 例 程序 都 能 受益 于 二 分 
查找 算法 ( 使 用 BinarySearch 的 程序 在 调用 rank() 之 前 必须 能 够 将 数组 排序 ) 。 白 名 单 应 用 是 众 
多 二 分 查找 算法 的 用 例 之 一 。 

每 个 Java 程序 都 是 一 组 静态 方法 和 (或) 一 种 应 用 
数据 类 型 的 实现 的 集合 。 在 本 书 中 我 们 主要 关注 的 是 % java Whitelist largeW.txt < 
抽象 数据 类 型 的 实现 中 的 操作 和 向 用 例 隐藏 其 中 的 数 darget txt 


据 表示 , 例如 StaticsETofInts。 正如 这 个 例子 所 示 ， 984875 
数据 抽象 使 我 们 能 够 : 295754 
口 准确 定义 算法 能 为 用 例 提供 什么 ; 2 
口 隔离 算法 的 实现 和 用 例 的 代码 ; 161828 


口 实现 多 层 抽象 ， 用 已 知 算法 实现 其 他 算法 。 


表 1.2.15 将 二 分 查找 重 写 为 一 段 面向 对 象 的 程序 〈 用 于 在 整数 集合 中 进行 查找 的 一 种 抽象 数据 类 型 ) 


API public class StaticSETofInts 
StaticSETofInts(Cint[] a) 根据 a[] 中 的 所 有 值 创建 一 个 集合 
boolean contains(int key) key 是 否 存在 于 集合 中 
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典型 的 用 例 
public class Whitelist 


public static void main(String[] args) 


int[] w = In.readInts(args[0]); 
StaticSETofInts set = new StaticSETofInts(w); 
while (!StdIn.isEmpty()) 
{ // 读 取 键 如果 不在 白 名 单 中 则 打印 它 
int key = StdIn.readInt(); 
if (!set.contains(key)) 
StdOut.printin(key); 





数据 类 型 的 实现 


import java.util.Arrays; 
public class StaticSETofInts 


private int[] a; 
public StaticSETofInts(int[] keys) 
{ 
a = new int[keys.length]; 
for (int i = 0; i < keys.length; i++) 
a[i] = keys[i]; // 保护 性 复制 
Arrays.sort(a); 


public boolean contains(int key) 


{ return rank(key) != -1; 
private int rank(int key) 
{ // 二 分 查找 

TIE oO， = 0» 


int hi = a.length - 1; 

while (lo <= hi) 

{ // 键 要 么 存在 于 a[1o..hi] 中 ， 要 么 不 存在 
int mid = lo + (hi - 1o) / 2; 


1 (key < a[mid]) hi = mid - 1; 
else if (key > a[mid]) 1o = mid + 1; 
else return mid; 

3 

return -1; 


无 论 是 使 用 自然 语言 还 是 伪 代 码 描述 算法 ， 这 些 都 是 我 们 所 希望 拥有 的 性 质 。 使 用 Java 的 类 
98 | ”机制 来 支持 数据 的 抽象 将 使 我 们 收获 良 多 : 我 们 编写 的 代码 将 能 够 测试 算法 并 比较 各 种 用 例 程序 的 
2 | 性 能 。 
1.2.5.4 接口 继承 
Java 语言 为 定义 对 象 之 间 的 关系 提供 了 支持 ， 称 为 接口 。 程 序 员 广 泛 使 用 这 些 机 制 ， 如 果 上 过 
软件 工程 的 课程 那么 你 可 以 详细 地 研究 一 下 它们 。 我 们 学 习 的 第 一 种 继承 机 制 叫做 子 类 型 。 它 允许 
我 们 通过 指定 一 个 含有 一 组 公共 方法 的 接口 为 两 个 本 来 并 没有 关系 的 类 建立 一 种 联系 ， 这 两 个 类 都 
必须 实现 这 些 方法 。 例 如 ， 如 果 不 使 用 我 们 的 非 正 式 API， 也 可 以 为 Date 声明 一 个 接口 : 
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public interface Datable 
{ 

int month() ; 

int dayO; 

int year(); 
} 


并 在 我 们 的 实现 中 引用 该 接口 : 
public class Date implements Datable 


{ 
// 实现 代码 ( 和 以 前 一 样 ) 
+ 


这 样 ，Java 编译 器 就 会 检查 该 实现 是 否 和 接口 相符 。 为 任意 实现 了 month(O)、dayQ) 和 
year() 的 类 添加 implements Datable 保证 了 所 有 用 例 都 能 用 该 类 的 对 象 调用 这 些 方法 。 这 种 方 
式 称 为 接口 继承 一 一 实现 类 继承 的 是 接口 。 接 口 继承 使 得 我 们 的 程序 能 够 通过 调用 接口 中 的 方法 操 
作 实 现 该 接口 的 任意 类 型 的 对 象 ( 甚至 是 还 未 被 创建 的 类 型 ) 。 我 们 可 以 在 更 多 非 正式 的 API 中 使 
用 接口 继承 ， 但 为 了 避免 代码 依赖 于 和 理解 算法 无 关 的 高 级 语言 特性 以 及 额外 的 接口 文件 ， 我 们 并 
没有 这 么 做 。 在 某 些 情况 下 Java 的 习惯 用 法 鼓励 我 们 使 用 接口 :我们 用 它们 进行 比较 和 迭代 ， 如 表 
1.2.16 所 示 。 我 们 会 在 接触 那些 概念 时 再 详细 研究 它们 。 





表 1.2.16 本 书 中 所 用 到 的 Java 接口 





接 口 廊 法 章 节 
比较 java.1lang.Comparable compareTo() 分 了 
Java.util.Comparator compare() 5 
java.lang.Iterable iterator() 1 六 
迭代 hasNext() 
java.util.Iterator next() Is3 
remove() 


1.2.5.5 ”实现 继承 

Java 还 支持 另 一 种 继承 机 制 ， 被 称 为 子 类 。 这 种 非常 强大 的 技术 使 程序 员 不 需要 重 写 整 个 类 就 
能 改变 它 的 行为 或 者 为 它 添加 新 的 功能 。 它 的 主要 思想 是 定义 一 个 新 类 ( 子 类 ， 或 称 为 派生 类 ) 来 
继承 另 一 个 类 ( 父 类 ，, 或 称 为 基 类 ) 的 所 有 实例 方法 和 实例 变量 。 子 类 包含 的 方法 比 父 类 更 多 。 另 外 ， 
子 类 可 以 重新 定义 或 者 重 写 父 类 的 方法 。 子 类 继承 被 系统 程序 员 广 泛 用 于 编写 所 谓 可 扩展 的 库 一 一 
任何 一 个 程序 员 (包括 你 ) 都 能 为 另 一 个 程序 员 (或 者 也 许 是 一 个 系统 程序 员 团 队 ) 创建 的 库 添 加 
方法 。 这 种 方法 能 够 有 效 地 重用 潜在 的 十 分 庞大 的 库 中 的 代码 。 例 如 ， 这 种 方法 被 广泛 用 于 图 形 用 
户 界 面 的 开发 ， 因 此 实现 用 户 所 需要 的 各 种 控件 (下拉 菜单 ， 剪 切 一 粘贴 ， 文 件 访问 等 ) 的 大 量 代 
码 都 能 够 被 重用 。 子 类 继承 的 使 用 在 系统 程序 员 和 应 用 程序 员 之 间 是 有 争议 的 〈 它 和 接口 继承 之 间 
的 优 劣 还 没有 定论 ) 。 在 本 书 中 我 们 会 避免 使 用 它 ， 因 为 它 会 破坏 封装 。 但 这 种 机 制 是 Java 的 一 
部 分 ， 因 此 它 的 残余 是 无 法 避免 的 : 具体 来 说 ， 每 个 类 都 是 Java 的 0bject 类 的 子 类 。 这 种 结构 意 
味 着 每 个 类 都 含有 getClass()、toString()、equals()、hashCode() ( 见 表 1.2.17 ) 和 另外 几 
个 我 们 不 会 在 本 书 中 用 到 的 方法 的 实现 。 实 际 上 ， 每 个 类 都 通过 子 类 继承 从 0bject 类 中 继承 了 这 
些 方法 ， 因 此 任何 用 例 都 可 以 在 任意 对 象 中 调用 这 些 方法 。 我 们 通常 会 重 载 新 类 的 toString()、 
equals() 和 hashCode() 方法 ， 因 为 Object 类 的 默认 实现 一 般 无 法 提供 所 需 的 行为 。 接 下 来 我 们 
将 讨论 toString() 和 equals()， 在 3.4 节 中 讨论 hashCode()。 





表 1.2.17 本 书 中 所 使 用 的 由 0bject 类 继承 得 到 的 方法 





方 法 作 用 章节 
Class getClass() 该 对 象 的 类 是 什么 12 
String toString() 该 对 象 的 字符 串 表 示 1.1 
boolean equals(Object that) 该 对 象 是 否 和 that 相等 i 
int hashCodeQ) 该 对 象 的 散 列 值 3.4 


1.2.5.6 ”字符 串 表 示 的 习惯 

按照 习惯 ， 每 个 Java 类 型 都 会 从 0bject 继承 toString() 方法 ， 因 此 任何 用 例 都 能 够 调 
用 任意 对 象 的 toString0) 方法 。 当 连接 运算 符 的 一 个 操作 数 是 字符 串 时 ，Java 会 自动 将 另 一 个 
操作 数 也 转换 为 字符 串 ， 这 个 约定 是 这 种 自动 转换 的 基础 。 如 果 一 个 对 象 的 数据 类 型 没有 实现 
toString() 方法 ， 那 么 转换 会 调用 0bejct 的 默认 实现 。 默 认 实 现 一 般 都 没有 多 大 实用 价值 ， 因 
为 它 只 会 返回 一 个 含有 该 对 象 内 存 地 址 的 字符 串 。 因 此 我 们 通常 会 为 我 们 的 每 个 类 实现 并 重 写 默 认 
的 toStringQ 方法 ， 如 下 面 代码 框 的 Date 类 中 加 粗 的 部 分 所 示 。 由 代码 可 以 看 到 ，toString() 
方法 的 实现 通常 很 简单 ， 只 需 隐 式 调用 (通过 + ) 每 个 实例 变量 的 toString () 方法 即 可 。 
1.2.5.7 ”封装 类 型 

Java 提供 了 一 些 内 置 的 引用 类 型 , 称 为 封装 类 型 。 每 种 原始 数据 类 型 都 有 一 个 对 应 的 封装 类 型 ; 
Boolean、Byte、Character、Double、Float、Integer、Long 和 Short 分 别 对 应 着 boolean、 
byte、char 、double、float、int、1ong 和 short。 这 些 类 主要 由 类 似 于 parseInt() 这 样 的 
静态 方法 组 成 ， 但 它们 也 含有 继承 得 到 的 实例 方法 toString()、compareTo()、equals() 和 
hashCode()。 在 需要 的 时 候 Java 会 自动 将 原始 数据 类 型 转换 为 封装 类 型 ， 如 1.3.1.1 节 所 述 。 例 如 ， 
当 一 个 int 值 需要 和 一 个 String 连接 时 , 它 的 类 型 会 被 转换 为 Integer 并 触发 toString (0) 方法 。 
1.2.5.8 ”等 价 性 

两 个 对 象 相 等 意味 着 什么 ?如果 我 们 用 相同 类 型 的 两 个 引用 变量 a 和 b 进行 等 价 性 测试 (a == 
b ) , 我 们 检测 的 是 它们 的 标识 是 否 相同 , 即 引 用 是 否 相 同 。 一 般 用 例 希 望 能 够 检查 数据 类 型 的 值 (对 
象 的 状态 ) 是 否 相 同 或 者 实现 某 种 针对 该 类 型 的 规则 。Java 为 我 们 开 了 个 头 ， 为 Integer、Double 
和 String 等 标准 数据 类 型 以 及 一 些 如 File 和 URL 的 复杂 数据 类 型 提供 了 实现 。 在 处 理 这 些 类 型 
的 数据 时 ， 可 以 直接 使 用 内 置 的 实现 。 例 如 ， 如 果 x 和 y 均 为 String 类 型 的 值 ， 那 么 当 且 仅 当 x 
和 y 的 长 度 相同 且 每 个 位 置 的 字符 均 相 同时 x.equals(y) 的 返回 值 为 true。 当 我 们 在 定义 自己 的 
数据 类 型 时 ， 比 如 Date 或 Transaction， 需 要 重 载 equals() 方法 。Java 约定 equals() 必须 是 
一 种 等 价 性 关系 。 它 必须 具有 : 

口 自 反 性 ，x.equals(x) 为 true; 

口 对 称 性 ， 当 有 目 仅 当 y.equals(x) 为 true 时，x.equals(y) 返回 true; 

口 传递 性 ， 如 果 x.equals(y) 和 y.equals(z) 均 为 true，x.equals(z) 也 将 为 true。 

另外 ， 它 必须 接受 一 个 0bject 为 参数 并 满足 以 下 性 质 : 

口 一 致 性 ， 当 两 个 对 象 均 未 被 修改 时 ， 反 复 调用 x.equals(y) 总 是 会 返回 相同 的 值 ; 

口 非 空 性 ，x.equalsCnu11) 总 是 返回 false。 

这 些 定 义 都 是 自然 合理 的 ， 但 确保 这 些 性 质 成 立 并 遵守 Java 的 约定 ， 同 时 又 避免 在 实现 时 做 无 
用 功 却 并 不 容易 ， 如 Date 所 示 。 它 通过 以 下 步 又 做 到 了 这 一 点 。 
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口 如 果 该 对 象 的 引用 和 参数 对 象 的 引用 相同 ， 返 回 true。 这 项 测试 在 成 立时 能 够 免 去 其 他 所 
有 测试 工作 。 

口 如 果 参 数 为 空 (nu11 ) ， 根 据 约 定 返回 false (还 可 以 避免 在 下 面 的 代码 中 使 用 空 引用 ) 。 

口 如 果 两 个 对 象 的 类 不 同 ， 返 回 false。 要 得 到 一 个 对 象 的 类 ， 可 以 使 用 getClass () 方法 。 
请 注意 我 们 会 使 用 == 来 判断 Class 类 型 的 对 象 是 否 相 等 ， 因 为 同一 种 类 型 的 所 有 对 象 的 
getClass() 方法 一 定 能 够 返回 相同 的 引用 。 

口 将 参数 对 象 的 类 型 从 0bject 转换 到 Date ( 因为 前 一 项 测试 已 经 通过 , 这 种 转换 必然 成 功 ) 。 

口 如 果 任 意 实例 变量 的 值 不 相同 , 返回 false。 对 于 其 他 类 , 等 价 性 测试 方法 的 定义 可 能 不 同 。 
例如 ， 我们 只 有 在 两 个 Counter 对 象 的 count 变量 相等 时 才 会 认为 它们 相等 。 


public class Date 


{ 

private final int month; 

private final int day: 

private final int year;” 

public Date(Cint m, int d, int y) 

{ month = m; day = di year = y; } 

public int monthO 

{ return month; 了 

public int dayO) 

{ return day; } 

public int year() 

{ return year; } 

public String toString() 

{ return month() + "/” + day() + "/" + year(); } 

public boolean equals(Object x) 
if (this == x) return true; 
if (x == nul11) return false; 
if (this.getClass() != x.getClass()) return false; 
Date that = (Date) x; 
if (this.day != that.day) return false; 
if (this.month != that.month) return false; 
if (this.year != that.year) return false; 
return true; 

. 

+ 


在 数据 类 型 的 定义 中 重 写 toString() 和 equalsO 〇 方法 


你 可 以 使 用 上 面 的 实现 作为 实现 任意 数据 类 型 的 equalsQ 〇 方法 的 模板 。 只 要 实现 一 次 
equals() 方法 ， 下 一 次 就 不 会 那么 困难 了 。 
1.2.5.9 内存 管理 103 
我 们 可 以 为 一 个 引用 变量 赋予 一 个 新 的 值 ， 因 此 一 段 程序 可 能 会 产生 一 个 无 法 被 引用 的 对 象 。 
例如 ， 请 看 图 1.2.9 中 所 示 的 三 行 赋值 语句 。 在 第 三 行 赋值 语句 之 后 ， 不 仅 a 和 会 指向 同一 个 
Date 对 象 (1/1/2011 ) ， 而 且 不 存在 能 够 引用 初始 化 变量 b 的 那个 Date 对 象 的 引用 了 。 本 来 该 对 
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2 善 Ss 12, 31, 1999); 
象 的 唯一 引用 就 是 变量 b， 但 是 该 引用 被 赋值 语句 覆盖 人 


了 ,这样 的 对 象 被 称 为 孤儿 。 对 象 在 离开 作用 域 之 后 也 a = bi 
会 变 成 孤儿 。Java 程序 经 常会 创建 大 量 对 象 ( 以 及 许多 


保存 原始 数据 类 型 值 的 变量 ) ， 但 在 某 个 时 刻 程序 只 会 | | 
需要 它们 之 中 的 一 小 部 分 。 因 此 ， 编 程 语言 和 系统 需要 
某 种 机 制 来 在 必要 时 为 数据 类 型 的 值 分 配 内 存 ， 而 在 不 a | _ 811 | 、 对 同一 个 


和 姑 对 象 的 引用 
需要 时 释放 它们 的 内 存 (对 于 一 个 对 象 来 说 ， 有 时 是 在 ? 


它 变 成 孤儿 之 后 ) 。 内 存 管理 对 于 原始 数据 类 型 更 容易 ， 
因为 内 存 分 配 所 需要 的 所 有 信息 在 编译 阶段 就 能 够 获取 。 





Java (以 及 大 多 数 其 他 系统 ) 会 在 声明 变量 时 为 它们 预 留 一 扯 儿 对 象 
内 存 空间 ， 并 会 在 它们 离开 作用 域 后 释放 这 些 空间 。 对 :EE 9 

象 的 内 存 管理 更 加 复杂 : 系统 会 在 创建 一 个 对 象 时 为 它 ”656 | 一 oa 
分 配 内 存 ， 但 是 程序 在 执行 时 的 动态 性 决定 了 一 个 对 象 。 “57 由 1999 | 





何 时 才 会 变 为 孤儿 ， 系 统 并 不 能 准确 地 知道 应 该 何 时 释 
放 一 个 对 象 的 内 存 。 在 许多 语言 中 (例如 C 和 Ct+) ， 611 

分 配 和 释放 内 存 是 程序 员 的 责任 。 众 所 周知 ， 这 种 操作 812 下 
林业 天 允 闪 昌国 钴 ， 元 ng 是 痢 的 一 个 桂 性 处 襄 痢 动 肉 。 则 3 计 5 

存 管理 。 它 通过 记录 孤儿 对 象 并 将 它们 的 内 存 释放 到 内 


存 池 中 将 程序 员 从 管理 内 存 的 责任 中 解放 出 来 。 这 种 回 ES 

收 内 存 的 方式 叫做 垃圾 回收 。Java 的 一 个 特点 就 是 它 不 

允许 修改 引用 的 策略 。 这 种 策略 使 Java 能 够 高 效 自动 地 图 1.2.9 孤儿 对 象 

回收 垃圾 。 程 序 员 们 至 今 仍 在 争论 ， 为 获得 无 需 为 内 存 管理 操心 的 方便 而 付出 的 使 用 自动 垃圾 回收 
的 代价 是 否 值得 。 


1.2.5.10 不 可 变性 

不 可 变数 据 类 型 ， 例 如 Date， 指 的 是 该 类 型 的 对 象 中 的 值 在 创建 之 后 就 无 法 再 被 改变 。 与 此 
相反 ， 可 变数 据 类 型 ， 例 如 Counter 或 Accumulator， 能够 操作 并 改变 对 象 中 的 值 。Java 语言 通 
过 final 修饰 符 来 强制 保证 不 可 变性 。 当 你 将 一 个 变量 声明 为 final 时 ， 也 就 保证 了 只 会 对 它 赋 
值 一 次 ， 可 以 用 赋值 语句 ， 也 可 以 用 构造 隐 数 。 试 图 改变 final 变量 的 值 的 代码 将 会 产生 一 个 编译 
时 错误 。 在 我 们 的 代码 中 ， 我 们 用 final 修饰 值 不 会 改变 的 实例 变量 。 这 种 策略 就 像 文档 一 样 ， 说 
明了 这 个 变量 的 值 不 会 再 发 生 改 变 ， 它 能 够 预防 意外 修改 ， 也 能 使 程序 的 调试 更 加 简单 。 像 Date 
这 样 实例 变量 均 为 原始 数据 类 型 且 被 final 修饰 的 数据 类 型 ( 按照 约定 ， 在 不 使 用 子 类 继承 的 代码 
中 ) 是 不 可 变 的 。 数 据 类 型 是 否 可 变 是 一 个 重要 的 设计 决策 ， 它 取决 于 当前 的 应 用 场景 。 对 于 类 似 
于 Date 的 数据 类 型 ， 抽 象 的 目的 是 封装 不 变 的 值 ， 以 便 将 其 和 原始 数据 类 型 一 样 用 于 赋值 语句 、 
作为 函数 的 参数 或 返回 值 ( 而 不 必 担 心 它 们 的 值 会 被 改变 ) 。 程 序 员 在 使 用 Date 时 可 能 会 写 出 操 
作 两 个 Date 类 型 的 变量 的 代码 d = d0， 就 像 操 作 double 或 者 int 值 一 样 。 但 如 果 Date 类 型 是 
可 变 的 且 d 的 值 在 d = d0 之 后 可 以 被 改变 ,那么 d0 的 值 也 会 被 改变 ( 它们 都 是 指向 同一 个 对 象 
的 引用 ) ! 从 另 一 方面 来 说 ， 对 于 类 似 于 Counter 和 Accumulator 的 数据 类 型 ， 抽 象 的 目的 是 封 
装 变化 中 的 值 。 作 为 用 例 程序 员 ， 你 在 使 用 Java 数组 (可 变 ) 和 Java 的 String 类 型 ( 不 可 变 ) 时 
就 已 经 遇 到 了 这 种 区 别 。 将 一 个 String 传递 给 一 个 方法 时 ， 你 不 会 担心 该 方法 会 改变 字符 串 中 的 
字符 顺序 ， 但 当 你 把 一 个 数组 传递 给 一 个 方法 时 ， 方 法 可 以 自由 改变 数组 的 内 容 。String 对 象 是 
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不 可 变 的 ， 因 为 我 们 一 般 都 不 希望 String 的 值 改变 ， 而 Java 数组 是 可 变 的 ， 因 为 我 们 一 般 的 确 希 
望 改变 数组 中 的 值 。 但 也 存在 我 们 希望 使 用 可 变 字 符 串 ( 这 就 是 Java 的 StringBuilder 类 存在 的 
目的 ) 和 不 可 变数 组 ( 这 就 是 稍 后 讨论 的 Vector 类 存在 的 目的 ) 的 情况 。 一 般 来 说 ， 不 可 变 的 数 
据 类 型 比 可 变 的 数据 类 型 使 用 更 容易 ， 误 用 更 困难 ， 因 为 能 够 改变 它们 的 值 的 方式 要 少 得 多 。 调 试 
使 用 不 可 变 类 型 的 代码 更 简单 ， 因 为 我 们 更 容易 确保 用 例 代码 中 使 用 它们 的 变量 的 状态 前 后 一 致 。 
在 使 用 可 变数 据 类 型 时 ， 必 须 时 刻 关注 它们 的 值 会 在 何 时 何 地 发 生变 化 。 而 不 可 变性 的 缺点 在 于 我 
们 需要 为 每 个 值 创建 一 个 新 对 象 。 这 种 开销 一 般 是 可 以 接受 的 ， 因 为 Java 的 垃圾 回收 器 通常 都 为 此 
进行 了 优化 。 不 可 变性 的 另 一 个 缺点 在 于 ，final 非常 不 幸 地 只 能 用 来 保证 原始 数据 类 型 的 实例 变 
量 的 不 可 变性 ， 而 无 法 用 于 引用 类 型 的 变量 。 如 果 一 个 应 用 类 型 的 实例 变量 含有 修饰 符 final， 该 
实例 变量 的 值 ( 某 个 对 象 的 引用 ) 就 永远 无 法 改变 了 一 一 它 将 永远 指向 同一 个 对 象 ， 但 对 象 的 值 本 
身 仍然 是 可 变 的 。 例 如 ， 这 段 代码 并 没有 实现 一 个 不 可 变 的 数据 类 型 : 


public class Vector 


{ 


private final double[] coords; 
public Vector(double[] a) 
{ coords = a; } 


上 
用 例 程序 可 以 通过 给 定 的 数组 创建 一 个 Vector 对 象 ， 并 在 构造 函数 执行 之 后 ( 绕 过 API ) 改 


变 Vector 中 的 元 素 的 值 : 


double[] a= {3.0, 4.0 }; 
Vector vector = new Vector(a); 
a[0] = 0.0; // 绕 过 了 公有 API 


实例 变量 coords[] 是 private 和 final 的 , 但 Vector 是 可 变 的 ， 因 为 用 例 拥有 指向 数据 
的 一 个 引用 。 任 何 数据 类 型 的 设计 都 需要 考虑 到 不 可 变性 ， 而 且 数据 类 型 是 否 是 不 可 变 的 则 应 该 在 
API 中 说 明 ， 这 样 使 用 者 才能 知道 该 对 象 中 的 值 是 无 法 
改变 的 。 在 本 书 中 ， 我 们 对 不 可 变性 的 主要 兴趣 在 于 用 ” 表 1.2.18 可 变 与 不 可 变数 据 类 型 举例 
它 保证 我 们 的 算法 的 正确 性 。 例 如 ， 如 果 一 个 二 分 查找 可 变数 据 类 型 不 可 变数 据 类 型 


算法 所 使 用 的 数据 的 类 型 是 可 变 的 ， 那 么 算法 的 用 例 就 Counter Date 
可 能 破坏 我 们 对 二 分 查找 中 的 数组 已 经 有 序 的 假设 。 可 Java 数组 String 0 
变数 据 与 不 可 变数 据 的 示例 见 表 1.2.18。 了 


1.2.5.11 ”契约 式 设计 

在 最 后 ， 我 们 将 简要 讨论 Java 语言 中 能 够 在 程序 运行 时 检验 程序 状态 的 一 些 机 制 。 为 此 我 们 将 
使 用 两 种 Java 的 语言 特性 : 

口 异常 (Exception ) ， 一 般 用 于 处 理 不 受 我 们 控制 的 不 可 预见 的 错误 ; 

口 断言 (Assertion ) ， 验 证 我 们 在 代码 中 做 出 的 一 些 假 设 。 

大 量 使 用 异常 和 断言 是 很 好 的 编程 实践 。 为 了 节约 版 面 我 们 在 本 书 中 极 少 使 用 它们 ， 但 你 在 本 
书 网 站 上 的 所 有 代码 中 都 会 找到 它们 。 这 些 代 码 中 的 每 个 和 异常 条 件 以 及 断言 恒等式 有 关 的 算法 周 
围 都 有 大 量 的 注释 。 
1.2.5.12 ”异常 与 错误 

异常 和 错误 都 是 在 程序 运行 中 出 现 的 破坏 性 事件 。Java 采取 的 行动 称 为 抛 出 异常 或 是 
抛 出 错误 。 我 们 已 经 在 学 习 Java 的 基本 特性 的 过 程 中 遇 到 过 Java 系统 方法 抛 出 的 异常 
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StackoverflowError、ArithmeticException、ArrayIndexOutOofBoundsException、 
OutOfMemoryError 和 Nu11PointerException 都 是 典型 的 例子 。 你 也 可 以 创建 自己 的 异常 ， 最 简 
单 的 一 种 是 RuntimeException， 它 会 中 断 程 序 的 执行 并 打印 出 一 条 出 错 信 息 : 

throw new RuntimeException("Error message here."); 

一 种 叫做 快速 出 错 的 常规 编程 实践 提倡 , 一 旦 出 错 就 立刻 抛 出 异常 , 使 定位 出 错位 置 更 容易 ( 这 
和 忽略 错误 并 将 异常 推迟 到 以 后 处 理 的 方式 相反 ) 。 
1.2.5.13 斯 宫 

断言 是 一 条 需要 在 程序 的 某 处 确认 为 true 的 布尔 表达 式 。 如 果 表 达 式 的 值 为 false， 程 序 
将 会 终止 并 报告 一 条 出 错 信息 。 我 们 使 用 断言 来 确定 程序 的 正确 性 并 记录 我 们 的 意图 。 例 如 ， 假 
设 你 计算 得 到 一 个 值 并 可 以 将 它 作为 索引 访问 一 个 数组 。 如 果 该 值 为 负数 ， 稍 后 它 将 会 产生 一 条 
ArrayIndexOutOfBoundsException 异常 。 但 如 果 代 码 中 有 一 句 assert index >= 0;， 你 就 能 
找到 出 错 的 位 置 。 还 可 以 选择 性 地 加 上 一 条 详细 的 消息 来 辅助 定位 bug， 例如: 

assert index >= 0 : "Negative index in method X"; 

默认 设置 没有 启用 断言 ,可 以 在 命令 行 下 使 用 -enableassertions 标 志 ( 简写 为 -ea ) 启 用 断言 。 
断言 的 作用 是 调试 : 程序 在 正常 操作 中 不 应 该 依赖 断言 ， 因 为 它们 可 能 会 被 禁用 。 系 统 编程 课程 会 
学 习 使 用 断言 来 保证 代码 永远 不 会 被 系统 错误 终止 或 是 进入 死 循环 。 一 种 叫做 契约 式 设 计 的 编程 模 
型 采用 的 就 是 这 种 思想 。 数 据 类 型 的 设计 者 需要 说 明 前 提 条 件 〈 用 例 在 调用 某 个 方法 前 必须 满足 的 
条 件 ) 、 后 置 条 件 〈 实 现在 方法 返回 时 必须 达到 的 要 求 ) 和 副作用 (方法 可 能 对 对 象 状态 产生 的 任 
何其 他 变更 ) 。 在 开发 过 程 中 ， 这 些 条 件 可 以 用 断言 进行 测试 。 
1.2.5.14 ”小 结 

本 节 所 讨论 的 语言 机 制 说 明 实 用 数据 类 型 的 设计 中 所 遇 到 的 问题 并 不 容易 解决 。 专 家 们 仍然 在 
讨论 支持 某 些 我 们 已 经 学 习 过 的 设计 理念 的 最 佳 方法 。 为 什么 Java 不 允许 将 函数 作为 参数 ?为 什么 
Matlab 会 复制 作为 参数 传递 给 函数 的 数组 ”正如 本 章 前 文 所 述 ， 如 果 你 总 是 抱怨 编程 语言 的 特性 ， 
那么 你 只 能 自己 设计 编程 语言 7 了。 如 果 你 不 希望 这 样 ， 最 好 的 策略 就 是 使 用 应 用 最 广泛 的 编程 语言 。 
大 多 数 系统 都 含有 大 量 的 库 ， 在 适当 的 时 候 你 应 该 能 用 到 它们 ， 但 通常 你 都 能 够 通过 构造 易于 移植 
到 其 他 编程 语言 的 抽象 层 来 简化 用 例 代码 并 进行 自我 保护 。 设 计数 据 类 型 是 你 的 主要 目标 ， 从 而 使 
大 多 数 工作 都 能 在 抽象 层次 完成 ， 且 和 手头 的 问题 匹配 。 

表 1.2.19 总 结 了 我 们 讨论 过 的 各 种 Java 类 。 


表 1.2.19 Java 类 (数据 类 型 的 实现 ) 


类 的 类 别 举 例 特 点 
静态 方法 Math StdIn StdOut 没有 实例 变量 
不 可 变 的 抽象 数据 类 型 Date Transaction String Integer ”实例 变量 均 为 private 


实例 变量 均 为 final 
保护 性 复制 引用 类 型 数据 
注意 : 这 些 都 是 必要 但 不 充分 条 件 


可 变 的 抽象 数据 类 型 Counter Accumulator 实例 变量 均 为 private 
并 非 所 有 实例 变量 均 为 final 


具有 IO 副作用 的 抽象 数据 类 型 ”VisualAccumulator In Out Draw 实例 变量 均 为 private 
实例 方法 会 处 理 IO 
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疑 


为 什么 要 使 用 数据 抽象 ? 

它 能 够 帮助 我 们 编写 可 靠 而 正确 的 代码 。 例 如 ， 在 2000 年 的 美国 总 统 竞 选中 ，Al Gore 在 弗 风 里 达 
州 的 Volusia 县 的 一 个 电子 计 票 机 上 得 到 了 -16022 张 选票 一 一 显然 电子 计 票 机 软件 中 的 选票 计数 器 
的 封装 不 正确 ! 

为 什么 要 区 别 原始 数据 类 型 和 引用 类 型 ? 为 什么 不 只 用 引用 类 型 ? 

因为 性 能 。Java 提供 了 Integer、Double 等 和 原始 数据 类 型 对 应 的 引用 类 型 ， 以 供 希 望 忽 略 这 些 类 
型 的 区 别 的 程序 员 使 用 。 原 始 数 据 类 型 更 接近 计算 机 硬件 所 支持 的 数据 类 型 ， 因 此 使 用 它们 的 程序 
比 使 用 引用 类 型 的 程序 运行 得 更 快 。 

数据 类 型 必须 是 抽象 的 吗 ? 

不 。Java 也 支持 public 和 protected 来 帮助 用 例 直 接 访 问 实例 变量 。 如 正文 所 述 ， 人 允许 用 例 代码 
直接 访问 数据 所 带 来 的 好 处 比 不 上 对 数据 的 特定 表示 方式 的 依赖 所 带 来 的 坏处 ， 因 此 我 们 代码 中 所 
有 的 实例 变量 都 是 私有 的 ( private ) ， 有 时 也 会 使 用 私有 实例 方法 在 公有 方法 之 间 共 享 代码 。 

如 果 我 在 创建 一 个 对 象 时 忘记 使 用 new 关键 字 会 发 生 什 么 ? 

对 于 Java， 这 种 代码 看 起 来 就 好 像 你 希望 调用 一 个 静态 方法 ， 却 得 到 一 个 对 象 类 型 的 返回 值 。 因 为 
并 没有 定义 这 样 一 个 方法 ,你 得 到 的 错误 信息 和 引用 一 个 未 定义 的 符号 是 一 样 的 .如 果 编 译 这 段 代 码 : 


Counter c = Counter("test"); 


会 得 到 这 条 错误 信息 : 


cannot find symbol 


symbol : method Counter(String) 
如 果 你 提供 给 构造 函数 的 参数 数量 不 对 ， 也 会 得 到 相同 的 出 错 信息 。 


如 果 我 在 创建 一 个 对 象 数 组 时 忘记 使 用 new 关键 字 会 发 生 什么 ? 
创建 每 个 对 象 都 需要 使 用 new， 所 以 要 创建 一 个 含有 NN 个 对 象 的 数组 , 需要 使 用 N+1 次 new 关键 字 : 
创建 数组 需要 一 次 ,创建 每 个 对 象 各 需要 一 次 。 如 果 忘 了 创建 数组 : 


Counter[] a; 
a[0] = new Counter("test"); 


你 得 到 的 错误 信息 和 尝试 为 一 个 未 初始 化 的 变量 赋值 是 一 样 的 : 
variable a might not have been initialized 


a[0] = new Counter("test"); 
入 


但 如 果 在 创建 数组 中 的 一 个 对 象 时 忘 了 使 用 new， 然 后 又 尝试 调用 它 的 方法 ， 会 得 到 一 个 
NullPointerException: 


Counter[] a = new Counter[2]; 
a[0] .increment(); 


为 什么 不 用 StdOut .print1ln(Cx.toString()) 来 打印 对 象 ? 
这 条 语句 也 可 以 , 但 Java 能 够 自动 调用 任意 对 象 的 toString() 方法 来 帮 我 们 省 去 这 些 麻烦 ， 因 为 
print1n() 接受 的 参数 是 一 个 0bject 对 象 。 

间 针 是 什么 ? 
问 得 好 。 或 许 上 面 那个 异常 应 该 叫做 Nu11ReferenceException。 和 Java 的 引用 一 样 ， 可 以 把 指 
针 看 做 机 器 地 址 。 在 许多 编程 语言 中 ， 指 针 是 一 种 原始 数据 类 型 ,程序 员 可 以 用 各 种 方法 操作 它 。 
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但 众所周知 ， 指 针 的 编程 非常 容易 出 错 ， 因 此 需要 精心 设计 指针 类 的 操作 以 帮助 程序 员 避 免 错 误 。 
Java 将 这 种 观点 发 挥 到 了 极致 (许多 主流 编程 语言 的 设计 者 也 赞同 这 种 做 法 ) 。. 在 Java 中 ， 创 建 引 
用 的 方法 只 有 一 种 (new) ， 且 改变 引用 的 方法 也 只 有 一 种 ( 赋值 语句 ) 。 也 就 是 说 ， 程 序 员 能 对 引 
用 进行 的 操作 只 有 创建 和 复制 。 在 编程 语言 的 行 话 里 ，Java 的 引用 被 称 为 安全 指针 ， 因 为 Java 能 够 
保证 每 个 引用 都 会 指向 某 种 类 型 的 对 象 ( 而 且 它 能 找 出 无 用 的 对 象 并 将 其 回收 ) 。 习 惯 于 编写 直接 
操作 指针 的 程序 员 认为 Java 完全 没有 指针 ， 但 人 们 仍 在 为 是 否 真 的 需要 不 安全 的 指针 而 争论 。 

我 在 哪里 能 够 找到 Java 如 何 实现 引用 和 进行 垃圾 收集 的 细节 ? 

Java 系统 的 实现 各 有 不 同 。 例 如 ， 实 现 引用 的 一 种 自然 方式 是 使 用 指针 ( 机 器 地 址 ) ;而 另 一 种 使 
用 的 则 可 能 是 句柄 (指针 的 指针 ) 。 前 者 访问 数据 的 速度 更 快 ， 而 后 者 则 能 够 更 好 地 实现 垃圾 回收 。 
导入 (import ) 一 个 对 象 名 意味 着 什么 ? 

没什么 ， 只 是 可 以 少 打 一 些 字 。 如 果 不 想 使 用 import 语句 ， 你 也 可 以 在 代码 中 用 java.util1. 
Arrays 代替 所 有 的 Arrays。 

实现 继承 有 什么 问题 ? 

子 类 继承 阻碍 模块 化 编程 的 原因 有 两 点 。 第 一 ， 父 类 的 任何 改动 都 会 影响 它 的 所 有 子 类 。 子 类 的 开 
发 不 可 能 和 父 类 无 关 。 事 实 上 , 子 类 是 完全 依赖 于 父 类 的 。 这 种 问题 被 称 为 脆弱 的 基 类 问题 。 第 二 ， 
子 类 代码 可 以 访问 所 有 实例 变量 ， 因 此 它们 可 能 会 扭曲 父 类 代码 的 意图 。 例 如 ， 用 于 选票 统计 系统 
的 Counter 类 的 设计 者 可 能 会 尽 最 大 努力 保证 Counter 每 次 只 能 将 计数 器 加 一 (还 记得 Al Gore 的 
问题 吗 ) 。 但 它 的 子 类 可 以 完全 访问 这 个 实例 变量 ， 因 此 可 以 将 它 改 变 为 任意 值 。 

怎样 才能 使 一 个 类 不 可 变 ? 

要 保证 含有 一 个 可 变 类 型 的 实例 变量 的 数据 类 型 的 不 可 变性 ， 需 要 得 到 一 个 本 地 副本 ， 这 被 称 为 保 
护 性 复制 ， 但 这 也 不 一 定 能 够 达到 目的 。 得 到 副本 是 一 个 方面 ， 保 证 没有 任何 实例 方法 能 够 改变 数 
据 的 值 是 男 一 方面 。 

什么 是 空 (nu11)? 

它 是 一 个 不 指向 任何 对 象 的 字面 量 。 引 用 nu11 调用 一 个 方法 是 没有 意义 的 ， 并 且 会 产生 
Nul11PointerException。 如 果 你 得 到 了 这 条 错误 信息 ， 请 检查 并 确认 构造 函数 是 否 正确 地 初始 化 
了 类 的 所 有 实例 变量 。 

实现 某 种 数据 类 型 的 类 中 能 否 存 在 静态 方法 ? 

当然 可 以 。 例 如 ， 我 们 实现 的 所 有 类 中 都 含有 一 个 mainQ 〇 方法 。 另 外 ， 对 于 涉及 多 个 对 象 的 操作 ， 
如 果 它 们 都 不 是 触发 该 方法 的 合适 对 象 ， 那 么 就 应 该 考虑 添加 一 个 静态 方法 。 例 如 ， 我 们 可 以 在 
Point 类 中 定义 如 下 静态 方法 : 


public static double distance(Point a, Point b) 


£ 
return a.distTo(b); 





于 

这 种 方法 常常 能 够 简化 用 例 代 码 。 

除了 参数 变量 、 局 部 变量 和 实例 变量 外 还 有 其 他 种 类 的 变量 吗 ? 

如 果 你 在 类 的 声明 中 包含 了 关键 字 static ( 在 其 他 类 型 之 前 ) ， 就 创建 了 一 种 称 为 静态 变量 的 完 
全 不 同 的 变量 。 和 实例 变量 一 样 ， 类 中 的 所 有 方法 都 可 以 访问 静态 变量 ,但 静态 变量 却 并 不 和 任 
何 具体 的 对 象 相 关联 。 在 较 老 的 编程 语言 中 ， 这 种 变量 被 称 为 全 局 变量 ， 因 为 它们 的 作用 域 是 全 
局 的 。 在 现代 编程 中 ， 我 们 希望 限制 变量 的 作用 域 ， 因 此 很 少 使 用 这 种 变量 。 在 使 用 它们 时 会 非 
常 小 心 。 
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问 ”什么 是 弃 用 (deprecated ) 的 方法 ? 

答 不 再 被 支持 但 为 了 保持 兼容 性 而 留 在 API 中 的 方法 叫做 弃 用 的 方法 。 例 如 ，Java 曾经 包含 了 一 个 
Character.isSpace() 的 方法 ,程序 员 也 使 用 这 个 方法 编写 了 一 些 程序 。 当 Java 的 设计 者 们 后 来 希 
望 支 持 Unicode 空白 字符 时 ， 他 们 无 法 既 改 变 isSpace() 的 行为 又 不 损害 用 例 程序 。 因 此 他 们 添加 
了 一 个 新 方法 Character.isWhiteSpace() 并 放弃 了 老 的 方法 。 随 着 时 间 的 推移 ， 这 种 方式 显然 会 
使 API 更 复杂 。 有 时 候 甚 至 整个 类 都 会 被 弃 用 。 例 如 ，Java 为 了 更 好 地 支持 国际 化 就 将 它 的 java. 
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图 练习 
1.2.1 编写 一 个 Point2D 的 用 例 ， 从 命令 行 接受 一 个 整数 N。 在 单位 正方 形 中 生成 NN 个 随机 点 ,然后 计 
算 两 点 之 间 的 最 近 距 离 。 


1.2.2 ”编写 一 个 IntervallD 的 用 例 ， 从 命令 行 接受 一 个 整数 W。 从 标准 输入 中 读 取 个 间隔 ( 每 个 间隔 
由 一 对 double 值 定义 ) 并 打印 出 所 有 相交 的 间隔 对 。 

1.2.3 编写 一 个 Interval2D 的 用 例 ， 从 命令 行 接受 参数 N、min 和 max。 生 成 N 个 随机 的 2D 间隔 ， 其 宽 
和 高 均匀 地 分 布 在 单位 正方 形 中 的 min 和 max 之 间 。 用 StdDraw 画 出 它们 并 打印 出 相交 的 间隔 对 
的 数量 以 及 有 包含 关系 的 间隔 对 数量 。 

1.2.4 以 下 这 段 代码 会 打印 出 什么 ? 
String stringl = "hello"; 
String string2 = stringl; 
stringl = "world"; 
StdOut.printin(stringl); 
StdOut.printin(string2); 


1.2.5 ”以 下 这 段 代码 会 打印 出 什么 ? 
String § = "Hello World': 
s.toUpperCase(); 
s.substring(6, 11); 
StdOut.println(s); 


答 : "hello Wor1d"。String 对 象 是 不 可 变 的 一 一 所 有 字符 串 方法 都 会 返回 一 个 新 的 String 对 象 
(但 它们 不 会 改变 参数 对 象 的 值 ) 。 这 段 代码 忽略 了 返回 的 对 象 并 直接 打印 了 原 字符 串 。 要 打印 出 
"WORLD"， 请 用 s = s.toUpperCase() 和 s = s.substring(6，11)。 

1.2.6 ”如 果 字 符 串 s 中 的 字符 循环 移动 任意 位 置 之 后 能 够 得 到 另 一 个 字符 串 t， 那 么 s 就 被 称 为 上 的 回 
环 变 位 (circular rotation ) 。 例 如 ，ACTGACG 就 是 TGACGAC 的 一 个 回环 变 位 ， 反 之 亦 然 。 判 定 这 
个 条 件 在 基因 组 序列 的 研究 中 是 很 重要 的 。 编 写 一 个 程序 检查 两 个 给 定 的 字符 串 s 和 t 是 否 互 为 [114 
回环 变 位 。 提 示 : 答案 只 需要 一 行 用 到 index0f() 、length() 和 字符 串 连接 的 代码 。 

1.2.7 ”以 下 递归 函数 的 返回 值 是 什么 ? 


public static String mystery(String s) 
入 





int N = s.lengthO); 

if (N <= 1) return s; 

String a = s.substring(0, N/2); 
String b = s.substring(N/2, N); 
return mystery(b) + mystery(a); 


1.2.8 设 a[] 和 br[] 均 为 长 数 百 万 的 整形 数组 。 以 下 代码 的 作用 是 什么 ” 有效 吗 ? 


Tn€El] 也 bs 
答 : 这 段 代 码 会 将 它们 交换 。 它 的 效率 不 可 能 再 高 了 ， 因 为 它 复制 的 是 引用 而 不 需要 复制 数 百 万 
外 元 过 5 
1.2.9 修改 BinarySearch (请 见 1.1.10.1 节 中 的 二 分 查找 代码 ) ， 使 用 Counter 统计 在 有 查找 中 被 检 
查 的 键 的 总 数 并 在 查找 全 部 结束 后 打印 该 值 。 提 示 : 在 main() 中 创建 一 个 Counter 对 象 并 将 它 
作为 参数 传递 给 rank 〇 。 
1.2.10 ”编写 一 个 类 VisualCounter， 支持 加 一 和 减 一 操作 。 它 的 构造 函数 接受 两 个 参数 N 和 max， 其 
中 NN 指定 了 操作 的 最 大 次 数 ，max 指定 了 计数 器 的 最 大 绝对 值 。 作 为 副作用 ， 用 图 像 显 示 每 次 计 
数 器 变化 后 的 值 。 
1.2.11 根据 Date 的 API 实现 一 个 SmartDate 类 型 ， 在 日 期 非法 时 抛 出 一 个 异常 。 
1.2.12 为 SmartDate 添加 一 个 方法 day0fTheweek()， 为 日 期 中 每 周 的 日 返回 Monday、Tuesday、 
Wednesday、Thursday、Friday、Saturday 或 Sunday 中 的 适当 值 。 你 可 以 假定 时 间 是 21 世纪 。 
1.2.13 ”用 我 们 对 Date 的 实现 (请 见 表 1.2.12 ) 作为 模板 实现 Transaction 类 型 。 
15 1.2.14 用 我 们 对 Date 中 的 equals 0) 方法 的 实现 (请 见 1.2.5.8 节 中 的 Date 类 代码 框 ) 作为 模板 ， 实 
116 现 Transaction 中 的 equals( 方法 。 


图 提高 是 
1.2.15 文件 输入 。 基 于 String 的 sp1it() 方法 实现 In 中 的 静态 方法 readInts()。 
解答 : 
public static int[] readInts(String name) 
{ 


In in = new In(name); 
String input = StdIn.readAl11(); 

String[] words = input.split("\\s+"); 
int[] ints = new int[words.length; 
for(int i = 0; i < word.length; i++) 

ints[i] = Integer.parseInt(words[i]); 
return ints; 


} 
我 们 会 在 1.3 节 中 学 习 男 一 个 不 同 的 实现 (请 见 1.3.1.5 节 ) 。 
1.2.16 ” 有理数。 为 有 理 数 实现 一 个 不 可 变数 据 类 型 Rational ， 支 持 加 减 乘除 操作 。 


public class Rational 





Rational(int numerator, int denominator) 


Rational plus(Rational b) 该 数 与 5 之 和 
Rational minus(Rational b) 该 数 与 b 之 差 
Rational times(Rational b) 该 数 与 之 积 
Rational divides(Rational b) 该 数 与 b 之 商 
boolean equals(Rational that) 该 数 与 that 相等 吗 
String toString() 对 象 的 字符 串 表示 


无 需 测试 溢出 ( 请 见 练习 1.2.17) ,只 需 使 用 两 个 1ong 型 实例 变量 表示 分 子 和 分 母 来 控制 溢出 
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的 可 能 性 。 使 用 欧 几 里 德 算法 来 保证 分 子 和 分 母 没 有 公 因 子 。 编 写 一 个 测试 用 例 检 测 你 实现 的 
所 有 方法 。 117 
有 理 数 实现 的 健壮 性 。 在 Rational (请 见 练习 1.2.16 ) 的 开发 中 使 用 断言 来 防止 溢出 。 
累加 器 的 方差 。 以 下 代码 为 Accumulator 类 添加 了 var() 和 stddev0) 方法 ， 它 们 计算 了 
addDataValue() 方法 的 参数 的 方差 和 标准 差 ， 验 证 这 段 代码 。 
public class Accumulator 
private double m; 
private double s; 
private int N; 


public void addDataValue(double x) 
{ 

N++; 
S= S+ 10 * (N-1) /NY (x - m * (Cx =- 和 7， 
m= m+ (x- m) /AN; 

} 

public double mean() 

{ return m; } 

public double var(0) 

{ return s/(N - 1); } 

public double stddev() 

{ return Math.sqrt(this.varO)); } 
} 


与 直接 对 所 有 数据 的 平方 求 和 的 方法 相 比 较 ， 这 种 实现 能 够 更 好 地 避免 四 舍 五 入 产生 的 误差 。 118 
字符 串 解析 。 为 你 在 练习 1.2.13 中 实现 的 Date 和 Transaction 类 型 编写 能 够 解析 字符 串 数据 
的 构造 函数 。 它 接受 一 个 String 参数 指定 的 初始 值 ， 格 式 如 表 1.2.20 所 示 : 


表 1.2.20 被 解析 的 字符 串 的 格式 


类 型 格 式 举 例 
Date 由 斜 杠 分 隔 的 整数 5/22/1939 
Transaction 客户 、 日 期 和 金额 ， 由 空白 字符 分 隔 Turing 5/22/1939 11.99 
部 分 解答 : 
public Date(String date) 


{ 
String[] fields = date.split("/"); 


month = Integer.parseInt(fields[0]); 
day = Integer.parseInt(fields[1]); 
year = Integer.parseInt(fields[2]); 119 
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1.3 背包 、 队 列 和 栈 


许多 基础 数据 类 型 都 和 对 象 的 集合 有 关 。 上 有 具体 来 说 ， 数 据 类 型 的 值 就 是 一 组 对 象 的 集合 ， 所 有 
操作 都 是 关于 添加 、 删 除 或 是 访问 集合 中 的 对 象 。 在 本 节 中 ， 我 们 将 学 习 三 种 这 样 的 数据 类 型 ， 分 
别 是 背包 ( Bag ) 、 队 列 (Queue ) 和 栈 ( Stack ) 。 它 们 的 不 同 之 处 在 于 删除 或 者 访问 对 象 的 顺序 不 同 。 

背包 、 队 列 和 栈 数据 类 型 都 非常 基础 并 且 应 用 广泛 。 我 们 在 本 书 的 各 种 实现 中 也 会 不 断 用 到 它 
们 。 除 了 这 些 应 用 以 外 ， 本 节 中 的 实现 和 用 例 代码 也 展示 了 我 们 开发 数据 结构 和 算法 的 一 般 方式 。 

本 节 的 第 一 个 目标 是 说 明 我 们 对 集合 中 的 对 象 的 表示 方式 将 直接 影响 各 种 操作 的 效率 。 对 于 集 
合 来 说 ， 我 们 将 会 设计 适 于 表示 一 组 对 象 的 数据 结构 并 高 效 地 实现 所 需 的 方法 。 

本 闻 的 第 二 个 目标 是 介绍 泛 型 和 和 迭代 。 它 们 都 是 简单 的 Java 概念 ， 但 能 极 大 地 简化 用 例 代码 。 
它们 是 高 级 的 编程 语言 机 制 ， 虽 然 对 于 算法 的 理解 并 不 是 必需 的 ， 但 有 了 它们 我 们 能 够 写 出 更 加 清 
晰 、 简 洁 和 优美 的 用 例 〈 以 及 算法 的 实现 ) 代码 。 

本 闻 的 第 三 个 目标 是 介绍 并 说 明 链 式 数 据 结构 的 重要 性 ， 特 别 是 经 典 数据 结构 链表 ， 有 了 它 我 
们 才能 高 效 地 实现 背包 、 队 列 和 栈 。 理 解 链 表 是 学 习 各 种 算法 和 数据 结构 中 最 关键 的 第 一 步 。 

对 于 这 三 种 数据 结构 ， 我 们 都 会 学 习 其 API 和 用 例 ， 然 后 再 讨论 数据 类 型 的 值 的 所 有 可 能 的 表 
示 方 法 以 及 各 种 操作 的 实现 。 这 种 模式 会 在 全 书 中 反复 出 现 ( 且 数 据 结构 会 越 来 越 复杂 ) 。 这 里 的 
实现 是 下 文 所 有 实现 的 模板 ， 值 得 仔细 研究 。 


1.3.1 API 


照例 ， 我 们 对 集合 型 的 抽象 数据 类 型 的 讨论 从 定义 它们 的 API 开始 ， 如 表 1.3.1 所 示 。 每 份 
API 都 含有 一 个 无 参数 的 构造 函数 、 一 个 向 集合 中 添加 单个 元 素 的 方法 、 一 个 测试 集合 是 否 为 空 
的 方法 和 一 个 返回 集合 大 小 的 方法 。Stack 和 Queue 都 含有 一 个 能 够 删除 集合 中 的 特定 元 素 的 方 
法 。 除 了 这 些 基 本 内 容 之 外 ,我们 将 在 以 下 几 节 中 解释 这 几 份 API 反映 出 的 两 种 Java 特性 : 泛 型 
与 迭代 。 


表 1.3.1 泛 型 可 迭代 的 基础 集合 数据 类 型 的 API 


背包 
public class Bag<Item> implements Iterable<Item> 
Bag() 创建 一 个 空 背 包 
void add(Item item) 添加 一 个 元 素 
boolean isEmpty©O) 背包 是 否 为 空 
int size() 背包 中 的 元 素数 量 


先进 先 出 〈FIFO) 队列 


public class Queue<Item> implements Iterab1e<Item> 


QueueO) 创建 空 队列 
void enqueue(Item item) 添加 一 个 元 素 
Item dequeue() 删除 最 近 添 加 的 元 素 
boolean isEmpty©O) 队列 是 否 为 空 


int size() 队列 中 的 元 素数 量 
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( 续 ) 
下 压 (后进 先 出 ，LIFO) 栈 
public class Stack<Item> implements Iterable<Item> 
StackO) 创建 一 个 空 栈 
void push(Item item) 添加 一 个 元 素 
Item pop() 删除 最 近 添 加 的 元 素 
boolean isEmpty() 栈 是 否 为 空 
int size() 栈 中 的 元 素数 量 121 


1.3.1.1 泛 型 

集合 类 的 抽象 数据 类 型 的 一 个 关键 特性 是 我 们 应 该 可 以 用 它们 存储 任意 类 型 的 数据 。 一 种 特别 
的 Java 机 制 能 够 做 到 这 一 点 ， 它 被 称 为 泛 型 ， 也 叫做 参数 化 类 型 。 泛 型 对 编程 语言 的 影响 非常 深 
刻 ， 许 多 语言 并 没有 这 种 机 制 ( 包括 早期 版 本 的 Java ) 。 在 这 里 我 们 对 泛 型 的 使 用 仅 限于 一 点 额外 
的 Java 语法 ， 非常 容 易 理解 。 在 每 份 API 中 ， 类 名 后 的 <Item> 记号 将 Item 定义 为 一 个 类 型 参数 ， 
它 一 个 象征 性 的 占 位 符 ， 表 示 的 是 用 例 将 会 使 用 的 某 种 具体 数据 类 型 。 可 以 将 Stack<Item> 理解 
为 某 种 元 素 的 栈 。 在 实现 Stack 时 ， 我 们 并 不 知道 Item 的 具体 类 型 ， 但 用 例 可 以 用 我 们 的 栈 处 理 
任意 类 型 的 数据 ， 甚 至 是 在 我 们 的 实现 之 后 才 出 现 的 数据 类 型 。 在 创建 栈 时 ， 用 例会 提供 一 种 具体 
的 数据 类 型 : 我们 可 以 将 Item 替换 为 任意 引用 数据 类 型 (Item 出 现 的 每 个 地 方 都 是 如 此 ) 。 这 种 
能 力 正 是 我 们 所 需要 的 。 例 如 ， 可 以 编写 如 下 代码 来 用 栈 处 理 String 对 象 : 

Stack<String> stack = new Stack<String>() ; 

stack.push("Test"); 

Stpiiid next = Stack.pop() ; 
并 在 以 下 代码 中 使 用 队列 处 理 Date 对 象 : 

Queue<Date> queue = new Queue<Date>(); 

queue.enqueue(new Date(12, 31, 1999)); 

Date next = queue.dequeue(); 

如 果 你 尝试 向 stack 变量 中 添加 一 个 Date 对 象 〈 或 是 任何 其 他 非 String 类 型 的 数据 ) 或 者 
向 queue 变量 中 添加 一 个 String 对 象 (或 是 任何 其 他 非 Date 类 型 的 数据 ) ， 你 会 得 到 一 个 编译 
时 错误 。 如 果 没 有 泛 型 , 我 们 必须 为 需要 收集 的 每 种 数据 类 型 定义 (并 实现 ) 不 同 的 API。 有 了 省 型 ， 
我 们 只 需要 一 份 API ( 和 一 次 实现 ) 就 能 够 处 理 所 有 类 型 的 数据 ， 甚 至 是 在 未 来 定义 的 数据 类 型 。 
你 很 快 将 会 看 到 ， 使 用 泛 型 的 用 例 代码 很 容易 理解 和 调试 ， 因 此 全 书 中 我 们 都 会 用 到 它 。 
1.3.1.2 自动 装 箱 

类 型 参数 必须 被 实例 化 为 引用 类 型 ， 因 此 Java 有 一 种 特殊 机 制 来 使 泛 型 代码 能 够 处 理 原 始 
数据 类 型 。 我 们 还 记得 Java 的 封装 类 型 都 是 原始 数据 类 型 所 对 应 的 引用 类 型 : Boolean 、Byte、 
Character、Double、Float、Integer、Long 和 Short 分 别 对 应 着 boolean、byte、char、 
double、float、int、1ong 和 short。 在 处 理 赋值 语句 、 方 法 的 参数 和 算术 或 逻辑 表达 式 时 ， 
Java 会 自动 在 引用 类 型 和 对 应 的 原始 数据 类 型 之 间 进 行 转换 。 在 这 里 ， 这 种 转换 有 助 于 我 们 同时 使 
用 泛 型 和 原始 数据 类 型 。 例 如 : 
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Stack<Integer> stack = new Stack<Integer>() ; 
stack.push(17); // 自动 装 箱 (int -> Integer) 
int i = stack.pop(); // 自动 拆 箱 (Integer -> int) 


自动 将 一 个 原始 数据 类 型 转换 为 一 个 封装 类 型 被 称 为 自动 装 箱 ， 自 动 将 一 个 封装 类 型 转换 为 一 
个 原始 数据 类 型 被 称 为 自动 拆 箱 。 在 这 个 例子 中 ， 当 我 们 将 一 个 原始 类 型 的 值 17 传递 给 pushQ 〇 方 
法 时 ，Java 将 它 的 类 型 自动 转换 ( 自动 装 箱 ) 为 Integer。pop 0) 方法 返回 了 一 个 Integer 类 型 的 
值 ，Java 在 将 它 赋 予 变量 i 之 前 将 它 的 类 型 自动 转换 ( 自动 拆 箱 ) 为 了 int。 
1.3.1.3 ”可 和 迭代 的 集合 类 型 

对 于 许多 应 用 场景 ， 用 例 的 要 求 只 是 用 某 种 方式 处 理 集合 中 的 每 个 元 素 ， 或 者 叫做 和 迭代 访问 集合 
中 的 所 有 元 素 。 这 种 模式 非常 重要 ， 在 Java 和 其 他 许多 语言 中 它 都 是 一 级 语言 特性 (不 只 是 库 ， 编 程 
语言 本 身 就 含有 特殊 的 机 制 来 支持 它 ) 。 有 了 它 ， 我 们 能 够 写 出 清晰 简洁 的 代码 且 不 依赖 于 集合 类 型 的 
具体 实现 。 例 如 ,假设 用 例 在 Queue 中 维护 一 个 交易 集合 ， 如 下 : 


Queue<Transaction> collection = new Queue<Transaction>(); 


如 果 集 合 是 可 迭代 的 ， 用 例 用 一 行 语句 即 可 打印 出 交易 的 列表 : 
for (Transaction t : collection) 
{ StdOut.printin(t); } 


这 种 语法 叫做 foreach 语句 : 可 以 将 for 语句 看 做 对 于 集合 一 个 装 有 
中 的 每 个 交易 t(foreach) ， 执 行 以 下 代码 段 。 这 段 用 例 代码 不 需 和 
要 知道 集合 的 表示 或 实现 的 任何 细节 ， 它 只 想 逐 个 处 理 集合 中 的 
元 素 。 相 同 的 for 语句 也 可 以 处 理 交 易 的 Bag 对 象 或 是 任何 可 和 迭 2 
代 的 集合 。 很 难 想象 还 有 比 这 更 加 清晰 和 简洁 的 代码 。 你 将 会 看 到 ， 
支持 这 种 迭代 需要 在 实现 中 添加 额外 的 代码 ， 但 这 些 工作 是 值 @ @ 


得 的 。 


有 趣 的 是 ，Stack 和 Queue 的 API 的 唯一 不 同 之 处 只 是 它 add(®@) 
们 的 名 称 和 方法 名 。 这 让 我 们 认识 到 无 法 简单 地 通过 一 列 方法 
的 签名 说 明 一 个 数据 类 型 的 所 有 特点 。 在 这 里 ， 只 有 自然 语言 
的 描述 才能 说 明 选 择 被 删除 元 素 ( 或 是 在 foreach 语句 中 下 一 @ 和 
个 被 处 理 的 元 素 ) 的 规则 。 这 些 规则 的 差异 是 API 的 重要 组 成 
部 分 ， 而 且 显然 对 用 例 代码 的 开发 十 分 重要 。 i 
1.3.1.4 ‘背包 
背包 是 一 种 不 支持 从 中 删除 元 素 的 集合 数据 类 型 一 它 的 
目的 就 是 帮助 用 例 收集 元 素 并 迭代 遍历 所 有 收集 到 的 元 素 (用 章 
例 也 可 以 检查 背包 是 否 为 空 或 者 获取 背包 中 元 素 的 数量 ) 。 选 @ @ 
代 的 顺序 不 确定 且 与 用 例 无 关 。 要 理解 背包 的 概念 ， 可 以 想象 | 
一 个 非常 喜欢 收集 弹子 球 的 人 。 他 将 所 有 的 弹子 球 都 放 在 一 个 for (Marble m : bag) 
背包 里 ， 一 次 一 个 ， 并 且 会 不 时 在 所 有 的 弹子 球 中 寻找 某 一 颗 Se@ee 
拥有 某 种 特点 的 弹子 球 。 使 用 Bag 的 API， 用 例 可 以 将 元 素 添 NS 
加 进 背 包 并 根据 需要 随时 使 用 foreach 语句 访问 所 有 的 元 素 。 处 理 任意 弹子 球 
用 例 也 可 以 使 用 栈 或 是 队列 ， 但 使 用 Bag 可 以 说 明 元 素 的 处 理 m (任意 顺序 ) 


顺序 不 重要 。 图 1.3.1 所 示 的 Stats 类 是 Bag 的 一 个 典型 用 例 。 1.3.1 背包 的 操作 ( 另 见 彩 插 ) 
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它 的 任务 是 简单 地 计算 标准 输入 中 的 所 有 double 值 的 平均 值 和 样本 标准 差 。 如 果 标 准 输 入 中 及 
个 数字 ， 那 么 平均 值 为 它们 的 和 除 以 N， 样 本 标准 差 为 每 个 值 和 平均 值 之 差 的 平方 之 和 除 以 N-1 之 
后 的 平方 根 。 在 这 些 计算 中 ， 数 的 计算 顺序 和 结果 无 关 ， 因 此 我 们 将 它们 保存 在 一 个 Bag 对 象 中 
并 使 用 foreach 语法 来 计算 每 个 和 和。 注意 : 不 需要 保存 所 有 的 数 也 可 以 计算 标准 差 ( 就 像 我 们 在 
Accumulator 中 计算 平均 值 那样 一 一 请 见 练习 1.2.18 ) 。 用 Bag 对 象 保存 所 有 数字 是 更 复杂 的 统计 


计算 所 必需 的 。 124 
以 下 代码 框 列 出 的 是 常用 的 背包 用 例 。 
背包 的 典型 用 例 
public class Stats 
public static void main(String[] args) 
{ 
Bag<Double> numbers = new Bag<Double>O); 
while (!StdIn.isEmpty()) 
numbers.add(StdIn.readDouble()); 使 用 方法 
int N = numbers.size(); 
double sum = 0.0; % java Stats 
for (double x : numbers) 100 
Sum += X; 99 
double mean = sum/N; 101 
120 
sum = 0.0; 98 
for (double x : numbers) 107 
Sum += (Xx - mean)*(x - mean); 109 
double std = Math,.sqrt(sum/(N-1)); 81 
Stdout.printf("Mean: %.2f\n", mean); 101 
StdOut.printf("Std dev: %.2f\n", std); 90 
} Mean: 100.60 
+ Std dev: 10.51 
外 2 


1.3.1.5 ”先进 先 出 队列 

先进 先 出 队列 (或 简称 队列 ) 是 一 种 基于 先进 先 出 (FIFO ) 策略 的 集合 类 型 ， 如 图 1.3.2 所 示 。 
按照 任务 产生 的 顺序 完成 它们 的 策略 我 们 每 天 都 会 遇 到 : 在 剧院 门 前 排队 的 人 们 、 在 收费 站 前 排队 
的 汽车 或 是 计算 机 上 某 种 软件 中 等 待 处 理 的 任务 。 任 何 服务 性 策略 的 基本 原则 都 是 公平 。 在 提 到 公 
平时 大 多 数 人 的 第 一 个 想法 就 是 应 该 优先 服务 等 竺 最 入 的 人 ， 这 正 是 先进 先 出 策略 的 准则 。 队 列 是 
许多 日 常 现象 的 自然 模型 ， 它 也 是 无 数 应 用 程序 的 核心 。 当 用 例 使 用 foreach 语句 迭代 访问 队列 中 
的 元 素 时 ， 元 素 的 处 理 顺序 就 是 它们 被 添加 到 队列 中 的 顺序 。 在 应 用 程序 中 使 用 队列 的 主要 原因 
是 在 用 集合 保存 元 素 的 同时 保存 它们 的 相对 顺序 ， 使 它们 入 列 顺序 和 出 列 顺序 相同 。 例 如 ， 下 页 
的 用 例 是 我 们 的 In 类 的 静态 方法 readInts() 的 一 种 实现 。 这 个 方法 为 用 例 解 决 的 问题 是 用 例 无 
需 预 先知 道 文件 的 大 小 即 可 将 文件 中 的 所 有 整数 读 入 一 个 数组 中 。 我 们 首先 将 所 有 的 整数 读 入 队 
列 中 ， 然 后 使 用 Queue 的 size() 方法 得 到 所 需 数组 的 大 小 ， 创 建 数组 并 将 队列 中 的 所 有 整数 移 
动 到 数组 中 。 队 列 之 所 以 合适 是 因为 它 能 够 将 整数 按照 文件 中 的 顺序 放 入 数组 中 ( 如果 该 顺序 并 
不 重要 ， 也 可 以 使 用 Bag 对 象 ) 。 这 段 代 码 使 用 了 自动 装 箱 和 拆 箱 来 转换 用 例 中 的 int 原始 数据 
类 型 和 队列 的 Integer 封装 类 型 。 
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图 1.3.2 一 个 典型 的 先进 先 出 队列 


1.3.1.6 下 压 栈 

下 压 栈 (或 简称 栈 ) 是 一 种 基于 后 进 先 出 
(LIFO ) 策略 的 集合 类 型 ， 如 图 1.3.3 所 示 。 当 
你 的 邮件 在 桌 上 放 成 一 到 时 ， 使 用 的 就 是 栈 。 新 
邮件 来 到 时 你 将 它们 放 在 最 上 面 ， 当 你 有 空 时 你 
会 一 封 一 封地 从 上 到 下 阅读 它们 。 现 在 人 们 应 付 
的 纸 质 品 比 以 前 少 得 多 ， 但 计算 机 上 的 许多 常用 
程序 遵循 相同 的 组 织 原则 。 例 如 ， 许 多 人 仍然 用 
栈 的 方式 存放 电子 邮件 一 一 在 收 信 时 将 邮件 压 入 
(push ) 最 顶端 ， 在 取信 时 从 最 顶端 将 它们 弹出 
( pop ), 且 第 一 封 一 定 是 最 新 的 邮件 ( 后 进 , 先 出 )。 
这 种 策略 的 好 处 是 我 们 能 够 及 时 看 到 感 兴趣 的 邮 
件 ， 坏 处 是 如 果 你 不 把 栈 清空 ， 某 些 较 早 的 邮件 
可 能 永远 也 不 会 被 阅读 。 你 在 网 上 冲浪 时 很 可 能 
会 遇 到 栈 的 另 一 个 例子 。 点 击 一 个 超 链 接 ， 浏 览 
器 会 显示 一 个 新 的 页 面 (并 将 它 压 人 一 个 栈 ) 。 
你 可 以 不 断 点 击 超 链接 并 访问 新 页 面 ， 但 总 是 可 
以 通过 点 击 “ 回 退 ”按钮 重新 访问 以 前 的 页 面 (从 
栈 中 弹出 ) 。 栈 的 后 进 先 出 策略 正好 能 够 提供 你 
所 需要 的 行为 。 当 用 例 使 用 foreach 语句 迭代 遍 
历 栈 中 的 元 素 时 ， 元素 的 处 理 顺 序 和 它们 被 压 人 





public static int[] readInts(String 
name) 
Bd 
In in = new In(name); 
Queue<Integer> q = new 
Queue<Integer>(); 
while (!in.isEmptyQO) 
q.enqueue(in.readInt()); 


int N = .9.S128()s 

int[] a = new int[N]; 

for Cint 1 = 0; i < N; i++) 
a[i] = q.dequeueQ); 


return a; 
} 
Queue 的 用 例 

“ 操 文 件 、 
新 到 的 文件 ( 灰 

push (2 区) < 和 一色) 放 在 顶端 
新 到 的 文件 ( 黑 

push ”2 < 一色 ) 放 在 顶端 
从 顶端 取 走 

A = pop() 和 ”黑色 的 文件 
从 顶端 取 走 

“= popO) < 灰色 的 文件 


图 1.3.3 下 压 栈 的 操作 
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的 顺序 正好 相反 。 在 应 用 程序 中 使 用 栈 和 迭代 器 的 1 
er public class Reverse 
一 个 典型 原因 是 在 用 集合 保存 元 素 的 同时 颠倒 它 1 


们 的 相对 顺序 。 例 如 ， 右 侧 的 用 例 Reverse 将 blis static void main(String[] args) 
会 把 标准 输入 中 的 所 有 整数 逆序 排列 ， 同 样 它 也 Stack<Integer> stack; 
无 需 预 先知 道 整数 的 多 少 。 在 计算 机 领域 ， 栈 具 stack = new Stack<Integer>O; 

hile (C!StdIn.isEmptyO)) 
有 基础 而 深远 的 影响 ， 下 一 节 我 们 会 仔细 研究 一 RE Feadiri ed 
个 例子 ， 以 说 明 栈 的 重要 性 。 for Cintil StacKy 
1.3.1.7 算术 表达 式 求 值 StdOut.print1in(i); 

} 


我 们 要 学 习 的 另 一 个 栈 用 例 同 时 也 是 展示 泛 。 } 
型 的 应 用 的 一 个 经 典 例子 。 我 们 在 1.1 节 中 最 初 
学 习 的 几 个 程序 之 “就 是 用 来 计算 算术 表达 式 的 Stack 的 用 例 
值 的 ， 例 如 : 

7 

如 果 将 4 乘 以 5， 把 3 加 上 2， 取 它们 的 积 然后 加 1， 就 得 到 了 101。 但 Java 系统 是 如 何 完成 
这 些 运 算 的 呢 ? 不 需要 研究 Java 系统 的 构造 细节 , 我 们 也 可 以 编写 一 个 Java 程序 来 解决 这 个 问题 。 
它 接受 一 个 输入 字符 串 (表达 式 ) 并 输出 表达 式 的 值 。 为 了 简化 问题 ， 首 先 来 看 一 下 这 份 明确 的 递 
归 定 义 : 算术 表达 式 可 能 是 一 个 数 ， 或 者 是 由 一 个 左 括号 、 一 个 算术 表达 式 、 一 个 运算 符 、 另 一 个 
算术 表达 式 和 一 个 右 括号 组 成 的 表达 式 。 简 单 起 抑 ， 这 里 定义 的 是 未 省 略 括号 的 算术 表达 式 ， 它 明 
确 地 说 明了 所 有 运算 符 的 操作 数 一 一 你 可 能 更 熟悉 形 如 1 + 2 * 3 的 表达 式 ， 省 略 了 括号 ， 而 采 
用 优先 级 规则 。 我 们 将 要 学 习 的 简单 机 制 也 能 处 理 优先 级 规则 ， 但 在 这 里 我 们 不 想 把 问题 复杂 化 。 
为 了 突出 重点 ， 我 们 支持 最 常见 的 二 元 运算 符 * 、+、- 和/， 以 及 只 接受 一 个 参数 的 平方 根 运算 符 
sqrt。 我 们 也 可 以 轻易 支持 更 多 数量 和 种 类 的 运算 符 来 计算 多 种 大 家 熟悉 的 数学 表达 式 ， 包 括 三 角 
函数 、 指 数 和 对 数 函 数 。 我 们 的 重点 在 于 如 何 解析 由 括号 、 运 算 符 和 数字 组 成 的 字符 串 ， 并 按照 正 
确 的 顺序 完成 各 种 初级 算术 运算 操作 。 如 何 才能 够 得 到 一 个 ( 由 字符 串 表示 的 ) 算 术 表达 式 的 值 呢 ? 
E.W.Dijkstra 在 20 世纪 60 年 代 发 明了 一 个 非常 简单 的 算法 ， 用 两 个 栈 (一 个 用 于 保存 运算 符 ， 一 
个 用 于 保存 操作 数 ) 完成 了 这 个 任务 ， 其 实现 过 程 见 下 页 ， 求 值 算法 的 轨迹 如 图 1.3.4 所 示 。 

表达 式 由 括号 、 运 算 符 和 操作 数 (数字 ) 组 成 。 我 们 根据 以 下 4 种 情况 从 左 到 右 逐 个 将 这 些 实 
体 送 入 栈 处 理 : 

口 将 操作 数 压 人 操作 数 栈 ; 

口 将 运算 符 压 人 运算 符 栈 ; 

口 忽略 左 括号 ; 

口 在 遇 到 右 括号 时 ， 弹 出 一 个 运算 符 ， 弹 出 所 需 数 量 的 操作 数 ， 并 将 运算 符 和 操作 数 的 运算 结 

果 压 人 操作 数 栈 。 

在 处 理 完 最 后 一 个 右 括号 之 后 ， 操 作 数 栈 上 只 会 有 一 个 值 ， 它 就 是 表达 式 的 值 。 这 种 方法 乍 一 
看 有 些 难 以 理解 ， 但 要 证 明 它 能 够 计算 得 到 正确 的 值 很 简单 : 每 当 算 法 遇 到 一 个 被 括号 包围 并 由 一 
个 运算 符 和 两 个 操作 数组 成 的 子 表 达 式 时 ， 它 都 将 运算 符 和 操作 数 的 计算 结果 压 和 人 操作 数 栈 。 这 样 
的 结果 就 好 像 在 输入 中 用 这 个 值 代 替 了 该 子 表达 式 ， 因 此 用 这 个 值 代替 子 表达 式 得 到 的 结果 和 原 表 
达 式 相同 。 我 们 可 以 反复 应 用 这 个 规律 并 得 到 一 个 最 终 值 。 例 如 ， 用 该 算法 计算 以 下 表达 式 得 到 的 
结果 都 是 相同 的 : 





128 


+ 十 + 十 


上 一 页 中 的 Evaluate 类 是 该 算法 的 一 个 实现 。 这 有 段 代码 是 一 个 简单 的 “解释 器 ”: 一 个 能 够 
解释 给 定 字符 串 所 表达 的 运算 并 计算 得 到 结果 的 程序 。 


Dijkstra 的 双 栈 算术 表达 式 求 值 算法 


public class Evaluate 


public static void main(String[] args) 
{ 
Stack<String> ops = new Stack<String>(); 
Stack<Double> vals = new Stack<Double>(Q); 
while (!StdIn.isEmpty()) 
{ // 读 取 字符 ， 如 果 是 运算 符 则 压 入 栈 
String s = StdIn.readString() ; 
和 (s.equals("(")) 
else if (s.equals("+")) ops.push(s); 
else if (s.equals("-")) ops.push(s); 
else if (s.equals("*")) ops.push(s); 
else if (s.equals("/")) ops.push(s); 
else if (s.equals("sqrt")) ops.push(s); 
else if (s.equals(")")) 
{ // 如 果 字 符 为 "}"， 弹 出 运算 符 和 操作 数 ， 计 算 结果 并 压 入 栈 
String op = ops.popO); 
double v = vals.popQO; 
if (op.equals("+")) Vv = vals.pop() + v; 
else if (op.equals("-")) v = vals.pop() - vi 
else if (op.equals("*")) V = Vals popO) * vs 
else if (op.equals("/")) V = Vals.b0pO £ vs 
else if (op.equals("sqrt")) v = Math.sqrt(v); 
vals.push(v); 
} // 如 果 字符 既 非 运算 符 也 不 是 括号 ， 将 它 作 为 double 值 压 入 栈 
else vals.push(Double.parseDouble(s)); 
3 
StdOut.printin(vals.popO); 
} 
F 


这 段 Stack 的 用 例 使 用 了 两 个 栈 来 计算 表达 式 的 值 。 它 展示 了 一 种 重要 的 计算 模型 : 将 一 个 字符 
串 解释 为 一 段 程序 并 执行 该 程序 得 到 结果 。 有 了 泛 型 ,我 们 只 需 实现 Stack 一 次 即 可 使 用 String 值 


的 栈 和 Double 值 的 栈 。 简 单 起 见 ， 这 段 代码 假设 表达 式 没有 省 略 任 何 括号 ， 数 字 和 字符 均 以 空白 字符 
相隔 。 


java Evaluate 
a 
4 


01.0 


OEMsart C0 FH 20) 


% 
& 
1 
% java Evaluate 
( 
1.618033988749895 
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这 丰 括号 : 忽略 
i (1+((2+3)*(4*5))) 
人 广 一 操作 数 : 压 入 操作 数 栈 
数 栈 eameny 1+((2+3)*(4*5))) 
| LL | 
3 运算 符 : 压 入 运算 符 栈 
运算 se +((2+3)*(4*5))) 
一 (C2+3)*(4*5))) 
[+ | 
Rpm (2+3)*(4*5))) 
| 1 
Em 
rn 2+3)*(4*5))) 
EE 3 
3)*(4*5))) 
| 12 , 
[一 
wma 3)*(4*5))) 
12 右 括号 : 弹出 运算 符 
下 入 J 和 操作 数 ， 压 入 结果 
一 )*(4*5))) 
[|+ 
Pe *(4*5))) 
寺内 
Te = (4*5))) 
十 内 
4*5))) 
| 154 
二 
和 *5))) 
i 5 
Pr 
EE 
rest ))) 
| 
) 
图 1.3.4 Dijkstra 的 双 栈 算术 表达 式 求 值 算法 的 轨迹 131 


1.3.2 ”集合 类 数据 类 型 的 实现 

在 讨论 Bag、Stack 和 Queue 的 实现 之 前 ， 我 们 会 先 给 出 一 个 简单 而 经 典 的 实现 ， 然 后 讨论 它 
的 改进 并 得 到 表 1.3.1 中 的 API 的 所 有 实现 。 
1.3.2.1 定 容 栈 

作为 热身 ， 我 们 先 来 看 一 种 表示 容量 固定 的 字符 串 栈 的 抽象 数据 类 型 ， 如 表 1.3.2 所 示 。 它 的 
API 和 Stack 的 API 有 所 不 同 : 它 只 能 处 理 String 值 ， 它 要 求 用 例 指定 一 个 容量 且 不 支持 迭代 。 
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实现 一 份 API 的 第 一 步 就 是 选择 数据 的 表示 方式 。 对 于 FixedCapacityStackOfstrings， 我 们 显 
然 可 以 选择 String 数组 。 由 此 我 们 可 以 得 到 表 1.3.2 中 底部 的 实现 ， 它 已 经 是 简单 得 不 能 再 简单 了 
( 每 个 方法 都 只 有 一 行 ) 。 它 的 实例 变量 为 一 个 用 于 保存 栈 中 的 元 素 的 数组 a[] ， 和 一 个 用 于 保存 
栈 中 的 元 素数 量 的 整数 N。 要 删除 一 个 元 素 ， 我 们 将 N 减 1 并 返回 a[N] 。 要 添加 一 个 元 素 ， 我 们 将 
a[N] 设 为 新 元 素 并 将 N 加 1。 这 些 操作 能 够 保证 以 下 性 质 : 


表 1.3.2 ”一 种 表示 定 容 字 符 串 栈 的 抽象 数据 类 型 
API public class FixedCapacityStackOfStrings 


FixedCapacityStackOfStrings(int cap) 创建 一 个 容量 为 cap 的 空 栈 
void push(String item) 添加 一 个 字符 串 
String popO) 删除 最 近 添加 的 字符 串 
boolean isEmpty() 栈 是 否 为 空 
int size() 栈 中 的 字符 串 数 量 
测试 用 例 public static void main(String[] args) 


FixedCapacityStackOfStrings s; 
s = new FixedCapacityStackOfStrings(100); 
while (!StdIn.isEmpty()) 

String item = StdIn.readString() ; 

if (!item.equals("-")) 

s.push(item); 

else if (!s.isEmpty()) StdOut.print(s.pop() + " "); 
} 
StdOut.println("(" + s.size() + " left on stack)"); 


使 用 方法 % more tobe.txt 
to be or not to - be - - that - - -is 
% java FixedCapacityStackOfStrings < tobe.txt 
to be not that or be (2 left on stack) 


数据 类 型 的 实现 public class FixedCapacityStackOfStrings 

{ 
private String[] a; // stack entries 
private int N; // size 
public FixedCapacityStackOfStrings(int cap) 
{ a= new String[cap]; } 
public boolean isEmpty() { return N == 0; } 
public int size() { return N; } 
public void push(String item) 
{ a[N++] = item; } 
public String popO) 
{ return a[--N]; } 

} 
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口 数组 中 的 元 素 顺序 和 它们 被 插 ” 表 1.3.3 FixedCapacityStackOfStrings 的 测试 用 例 的 轨迹 


入 的 顺序 相同 ; Stdm Stdout AN 2 a sd 
口 当 N 为 0 时 栈 为 空 ; 了 
口 栈 的 顶部 位 于 a[N-1] ( 如果 栈 
非 空 ) 0 
人 be 2 to be 
和 以 前 一 样 ， 用 恒等式 的 方式 思 or 和 to be or 
考 这 些 条 件 是 检验 实现 正常 工作 的 最 not 4 to be or not 
简单 的 方式 。 请 你 务必 完全 理解 这 个 。 to a 
实现 。 做 到 这 一 点 的 最 好 方法 是 检验 。 ”4 be or not 
e 5 to be or not be 
一 系列 操作 中 栈 内 容 的 轨迹 ， 如 表 13a PA be 4 to be or not 
所 示 。 测 试用 例会 从 标准 输入 读 取 多 = not 3 to be or 
个 字符 串 并 将 它们 压 人 一 个 栈 ， 当 遇 that 4 to be or that 
到 一 时 它 会 将 栈 的 内 容 弹出 并 打印 结 。“ cs 
果 。 这 种 实现 的 主要 性 能 特点 是 push 总 be 和 to 
和 pop 操作 所 需 的 时 间 独 立 于 栈 的 长 is 2 to is 


度 。 许 多 应 用 会 因为 这 种 简洁 性 而 选 
择 它 。 但 几 个 缺点 限制 了 它 作 为 通用 工具 的 潜力 ， 我 们 要 改进 的 也 是 这 一 点 。 经 过 一 些 修改 ( 以 及 
Java 语言 机 制 的 一 些 帮 助 ) ， 我 们 就 能 给 出 一 个 适用 性 更 加 广泛 的 实现 。 这 些 努 力 是 值得 的 ， 因 为 ”[132 
这 个 实现 是 本 书 中 其 他 许多 更 强大 的 抽象 数据 类 型 的 模板 。 133 
1.3.2.2 泛 型 

FixedCapacityStackOfStrings 的 第 一 个 缺点 是 它 只 能 处 理 String 对 象 。 如 果 需 要 一 
个 double 值 的 栈 ， 你 就 需要 用 类 似 的 代码 实现 另 一 个 类 ， 也 就 是 把 所 有 的 String 都 蔡 换 为 
double。 这 还 算 简单 ， 但 如 果 我 们 需要 Transaction 类 型 的 栈 或 者 Date 类 型 的 队列 等 ， 情 况 就 
很 棘手 了 。 如 1.3.1.1 节 的 讨论 所 示 ，Java 的 参数 类 型 ( 泛 型 ) 就 是 专门 用 来 解决 这 个 问题 的 ， 而 且 
我 们 也 看 过 了 几 个 用 例 的 代码 (请 见 1.3.1.4 节 、1.3.1.5 节 、1.3.1.6 节 和 1.3.1.7 节 ) 。 但 如 何 才能 
实现 一 个 泛 型 的 栈 呢 ? 表 1.3.4 中 的 代码 展示 了 实现 的 细节 。 它 实现 了 一 个 FixedCapacityStack 
类 ， 该 类 和 FixedCapacityStackOfStrings 类 的 区 别 仅 在 于 加 粗 部 分 的 代码 一 一 我 们 把 所 有 的 
String 都 替换 为 Item ( 一 个 地 方 除外 ,会 在 稍 后 讨论 ) 并 用 下 面 这 行 代码 声明 了 该 类 . 

public class FixedCapacityStack<Item> 

Item 是 一 个 类 型 参数 ， 用 于 表示 用 例 将 会 使 用 的 某 种 具体 类 型 的 象征 性 的 占 位 符 。 
可 以 将 FixedCapacityStack<Item> 理解 为 某 种 元 素 的 栈 ， 这 正 是 我 们 想 要 的 。 在 实现 
FixedCapacityStack 时 ， 我 们 并 不 知道 Item 的 实际 类 型 ， 但 用 例 只 要 能 在 创建 栈 时 提供 具体 的 
数据 类 型 ， 它 就 能 用 栈 处 理 任意 数据 类 型 。 实 际 的 类 型 必须 是 引用 类 型 ， 但 用 例 可 以 依靠 自动 装 箱 
将 原始 数据 类 型 转换 为 相应 的 封装 类 型 。Java 会 使 用 类 型 参数 Item 来 检查 类 型 不 匹配 的 错误 一 一 
尽管 具体 的 数据 类 型 还 不 知道 ， 赋 予 Item 类 型 变量 的 值 也 必须 是 Item 类 型 的 ， 等 等 。 在 这 里 有 
一 个 细节 非常 重要 : 我 们 希望 用 以 下 代码 在 FixedCapacityStack 的 构造 函数 的 实现 中 创建 一 个 泛 
型 的 数组 : 


a = new Item[cap]; 


由 于 某 些 历 史 和 技术 原因 ( 不 在 本 书 讲解 范围 之 内 ) ， 创 建 泛 型 数组 在 Java 中 是 不 允许 的 。 我 


们 需要 使 用 类 型 转换 : 
a = (Item[]) new 0bject[cap]; 
这 段 代码 才能 够 达到 我 们 所 期 望 的 效果 ( 但 Java 编译 器 会 给 出 一 条 警告 ， 不 过 可 以 忽略 它 ) ， 
L134] ”我们 在 本 书 中 会 一 直 使 用 这 种 方式 ( Java 系统 库 中 类 似 抽象 数据 类 型 的 实现 中 也 使 用 了 相同 的 方式 )。 
表 1.3.4 一 种 表示 泛 型 定 容 栈 的 抽象 数据 类 型 
API public class FixedCapacityStack<Item> 





FixedCapacityStack(int cap) 创建 一 个 容量 为 cap 的 空 栈 
void push(Item item) 添加 一 个 字符 串 
Item pop() 删除 最 近 添 加 的 字符 串 
boolean isEmptyO) 栈 是 否 为 空 
int size() 栈 中 的 元 素数 量 
测试 用 例 public static void main(String[] args) 
{ 


FixedCapacityStack<String> s; 
s = new FixedCapacityStack<String>(100); 
while (!StdIn.isEmpty()) 
{ 

String item = StdIn.readStringO); 

if (!item.equals("-")) 

s.push(item); 

else if (!s.isEmpty()) StdOut.print(s.pop() + " "); 
} 
StdOut.printin("(" + s.size() + " left on stack)"); 


使 用 方法 % more tobe.txt 
to be or not to - be - - that - - - is 
% java FixedCapacityStack < tobe.txt 
to be not that or be (2 left on stack) 


数据 类 型 的 实现 public class FixedCapacityStack<Item> 
t 
private Item[] a; // stack entries 
private int N; // size 


public FixedCapacityStack(int cap) 

{ a= (Item[]) new Object[cap]; } 
public boolean isEmpty() { return N == 
public int size() { return N; } 
public void push(Item item) 

{ a[N++] = item; } 

public Item pop(O) 

{ return a[--N]; } 


0; } 


} 
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1.3.2.3 ”调整 数组 大 小 
选择 用 数组 表示 栈 内 容 意味 着 用 例 必 须 预 先 佑 计 栈 的 最 大 容量 。 在 Java 中 ， 数 组 一 旦 创建 ， 
其 大 小 是 无 法 改变 的 ， 因 此 栈 使 用 的 空间 只 能 是 这 个 最 大 容量 的 一 部 分 。 选 择 大 容量 的 用 例 在 
栈 为 空 或 几乎 为 空 时 会 浪费 大 量 的 内 存 。 例 如 ， 一 个 交易 系统 可 能 会 涉及 数 十 亿 笔 交易 和 数 千 
个 交易 的 集合 。 即 使 这 种 系统 一 般 都 会 限制 每 笔 交 易 只 能 出 现在 一 个 集合 中 ， 但 用 例 必 须 保证 
所 有 集合 都 有 能 力 保存 所 有 的 交易 。 另 一 方面 , 如果 集 合 变 得 比 数组 更 大 那么 用 例 有 可 能 溢出 。 
为 此 ，push0) 方法 需要 在 代码 中 检测 栈 是 否 已 满 ， 我 们 的 API 中 也 应 该 含有 一 个 isFu110O 〇 方 
法 来 允许 用 例 检 测 栈 是 否 已 满 。 我 们 在 此 省 略 了 它 的 实现 代码 ， 因 为 我 们 希望 用 例 从 处 理 栈 已 
满 的 问题 中 解脱 出 来 ， 如 我 们 的 原始 Stack API 所 示 。 因 此 ， 我 们 修改 了 数组 的 实现 ， 动 态 调 
整数 组 a[] 的 大 小 ， 使 得 它 既 足以 保存 所 有 元 素 ， 又 不 至 于 浪费 过 多 的 空间 。 实 际 上 ， 完 成 这 
些 目标 非常 简单 。 首 先 ， 实 现 一 个 方法 将 栈 移 动 到 另 一 个 大 小 不 同 的 数组 中 ; 
private void resize(int max) 
{ // 将 大 小 为 N < = max 的 栈 移动 到 一 个 新 的 大 小 为 max 的 数组 中 
Item[] temp = (Item[]) new Object[max]; 
Fo ChnE, hs OF 4 CNY Ta) 
temp[i] = a[i]; 
a = temp; 


} 
现在 ， 在 push() 中 ,检查 数 组 是 否 太 小 。 具 体 来 说 ， 我 们 会 通过 检查 栈 大 小 N 和 数组 大 小 
a.1ength 是 否 相 等 来 检查 数组 是 否 能 够 容纳 新 的 元 素 。 如 果 没 有 多 余 的 空间 ， 我 们 会 将 数组 的 
长 度 加 倍 。 然 后 就 可 以 和 从 前 一 样 用 a[N++] = item 插 人 新 元 素 了 : 
public void push(String item) 
{ // 将 元 素 压 入 栈 顶 
if (CN == a.length) resize(2*a.length); 
a[N++] = item; 


} 
类 似 ,在 popQO 中 ， 首 先 删 除 栈 顶 的 元 素 ， 然 后 如 果 数 组 太 大 我 们 就 将 它 的 长 度 减 半 。 只 
要 稍 加 思考 ， 你 就 明白 正确 的 检测 条 件 是 栈 大 小 是 否 小 于 数组 的 四 分 之 一 。 在 数组 长 度 被 减 半 
之 后 ， 它 的 状态 约 为 半 满 ， 在 下 次 需要 改变 数组 大 小 之 前 仍然 能 够 进行 多 次 push() 和 popO) 
操作 。 136 
public String popO) 
{ // 从 栈 顶 删除 元 素 
String item = a[--N]; 
a[N] = nu11; // 避免 对 象 游离 (请 见 下 节 ) 
if (CN > 0 && N == a.length/4) resize(a.length/2); 
return item; 


} 

在 这 个 实现 中 ， 栈 永远 不 会 洲 出 ， 使 用 率 也 永远 不 会 低 于 四 分 之 一 ( 除非 栈 为 空 ， 那 种 情 
况 下 数组 的 大 小 为 1 ) 。 我 们 会 在 1.4 节 中 详细 分 析 这 种 实现 方法 的 性 能 特点 。 

push() 和 popQ 操作 中 数组 大 小 调整 的 轨迹 见 表 1.3.5。 
1.3.2.4 ”对 象 游离 

Java 的 垃圾 收集 策略 是 回收 所 有 无 法 被 访问 的 对 象 的 内 存 。 在 我 们 对 pop O) 的 实现 中 ,被 
弹出 的 元 素 的 引用 仍然 存在 于 数组 中 。 这 个 元 素 实 际 上 已 经 是 一 个 孤儿 了 一 一 它 永 远 也 不 会 再 
被 访问 了 ， 但 Java 的 垃圾 收集 器 没 法 知道 这 一 点 ， 除 非 该 引用 被 覆盖 。 即 使 用 例 已 经 不 再 需要 
这 个 元 素 了 ,数组 中 的 引用 仍然 可 以 让 它 继续 存在 。 这 种 情况 ( 保存 一 个 不 需要 的 对 象 的 引用 ) 
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称 为 游离 。 在 这 里 ， 避 免 对 象 游离 很 容易 ， 只 需 将 被 弹出 的 数组 元 素 的 值 设 为 nu11 即 可 ， 这 将 覆 
盖 无 用 的 引用 并 使 系统 可 以 在 用 例 使 用 完 被 弹出 的 元 素 后 回收 它 的 内 存 。 


表 1.3.5 一 系列 push() 和 pop() 操作 中 数组 大 小 调整 的 轨迹 








a[] 
pushO) pop 0) N a.length TL 3 3 ; 
0 于 null 

to 1 to 

be 2 be 

or 3 4 or null 

not 4 not 

to 5 8 to null null null 

- to 4 null 

be 5 be 

- be 4 null 

- not 3 nul]1 
that 4 that 

一 that 3 null 

- or 2 null null 

- be 1 史 null 

is 2 Ls 

1.3.2.5 选 代 


本 节 开 头 已 经 提 过 ， 集 合 类 数据 类 型 的 基本 操作 之 一 就 是 ， 能 够 使 用 Java 的 foreach 语句 通 
过 迭代 遍历 并 处 理 集合 中 的 每 个 元 素 。 这 种 方式 的 代码 既 清 晰 又 简洁 ， 且 不 依赖 于 集合 数据 类 型 的 
具体 实现 。 在 讨论 迭代 的 实现 之 前 ， 我 们 先 看 一 段 能 够 打印 出 一 个 字符 串 集 合 中 的 所 有 元 素 的 用 例 
代码 : 

Stack<String> collection = new Stack<String>(); 


for (String s : collection) 
StdOut.println(s); 


这 里 ，foreach 语句 只 是 while 语句 的 一 种 简写 方式 ( 就 好 像 for 语句 一 样 ) 。 它 本 质 上 和 
以 下 while 语句 是 等 价 的 : 
Iterator<String> i = collection.iterator() ; 
while (i.hasNext()) 
是 
String s = i.next(O); 
Stdout.println(s) ; 
} 


这 段 代码 展示 了 一 些 在 任意 可 迭代 的 集合 数据 类 型 中 我 们 都 需要 实现 的 东西 : 
口 集合 数据 类 型 必须 实现 一 个 iterator() 方法 并 返回 一 个 Iterator 对 象 ; 
口 Iterator 类 必须 包含 两 个 方法 : hasNext() (返回 一 个 布尔 值 ) 和 next() (返回 集合 中 的 
一 :个 省 型 元 过 Je 
在 Java 中 ， 我 们 使 用 接口 机 制 来 指定 一 个 类 所 必须 实现 的 方法 ( 请 见 1.2.5.4 节 ) 。 对 于 可 大 
代 的 集合 数据 类 型 ，Java 已 经 为 我 们 定义 了 所 需 的 接口 。 要 使 一 个 类 可 和 迭代， 第 一 步 就 是 在 它 的 声 
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明 中 加 入 implements Iterable<Item>， 对 应 的 接口 ( 即 java.lang.Iterable ) 为 : 
public interface Iterable<Item> 


{ 


Iterator<Item> iterator(); 


} 

然后 在 类 中 添加 一 个 方法 iteratorQ 并 返回 一 个 迭代 器 Iterator<Item>。 和 迭代 器 都 
是 泛 型 的 ， 因 此 我 们 可 以 使 用 参数 类 型 Ttem 来 帮助 用 例 遍 历 它们 指定 的 任意 类 型 的 对 象 。 
对 于 一 直 使 用 的 数组 表示 法 ， 我 们 需要 逆序 和 迭代 遍历 这 个 数组 ， 因 此 我 们 将 迭代 吉 命 名 为 
ReverseArrayIterator， 并 添加 了 以 下 方法 : 


public Iterator<Item> iterator() 
{ return new ReverseArrayIterator(); } 


友 代 器 是 什么 ? 它 是 一 个 实现 了 hasNext() 和 next(0) 方法 的 类 的 对 象 ， 由 以 下 接口 所 定 


义 ( 即 java.util.Iterator ) : 
public interface Iterator<Item> 


boolean hasNext() ; 
Item next() ; 
void remove() ; 

了 


尽管 接口 指定 了 一 个 remove() 方法 , 但 在 本 书 中 remove() 方法 总 为 空 ， 因 为 我 们 希望 避 
免 在 迭代 中 穿插 能 够 修改 数据 结构 的 操作 。 对 于 ReverseArrayIterator， 这 些 方法 都 只 需 
一 行 代码 ， 它 们 实现 在 栈 类 的 一 个 绒 套 类 中 : 


private class ReverseArrayIterator implements Iterator<Item> 


{ 


private int 1 = N; 


public boolean hasNext() { return 1 > 0; 3} 
public Item next() { return a[--i]; } 
public void remove() { 


} 

请 注意 ， 概 套 类 可 以 访问 包含 它 的 类 的 实例 变量 ， 在 这 里 就 是 a[] 和 N (这 也 是 我 们 使 用 概 
套 类 实现 迭代 器 的 主要 原因 ) 。 从 技术 角度 来 说 ,为 了 和 Iterator 的 结构 保持 一 致 ， 我 们 应 该 
在 两 种 情况 下 抛 出 异常 : 如 果 用 例 调用 了 removeQ 则 抛 出 UnsupportedOperationException， 
如 果 用 例 在 调用 next() 时 1i 为 0 则 抛 出 NoSuchElementException 。 因 为 我 们 只 会 在 foreach 
语法 中 使 用 迭代 器 ， 这 些 情况 都 不 会 出 现 ， 所 以 我 们 省 略 了 这 部 分 代码 。 还 剩 下 一 个 非常 重要 的 
细节 ， 我 们 需要 在 程序 的 开头 加 上 下 面 这 条 语句 : 

import java.util.Iterator; 

因为 ( 某 些 历史 原因 ) Iterator 不 在 java.lang 中 (尽管 Iterable 是 java.lang 的 一 部 分 ) 。 
现在 ， 使 用 foreach 处 理 该 类 的 用 例 能 够 得 到 的 行为 和 使 用 普通 的 for 循环 访问 数组 一 样 ， 但 
它 无 知道 数据 的 表示 方法 是 数组 ( 即 实现 细节 ) 。 对 于 我 们 在 本 书 中 学 习 的 和 Java 库 中 所 包含 
的 所 有 类 似 于 集合 的 基础 数据 类 型 的 实现 ， 这 一 点 非常 重要 。 例 如 ， 我 们 无 需 改变 任何 用 例 代 
码 就 可 以 随意 切换 不 同 的 表示 方法 。 更 重要 的 是 ， 从 用 例 的 角度 来 来 说 ， 无 需 知晓 类 的 实现 细 
节 用 例 也 能 使 用 迭代 。 

算法 1.1 是 Stack API 的 一 种 能 够 动态 改变 数组 大 小 的 实现 。 用 例 能 够 创建 任意 类 型 数据 
的 栈 ， 并 支持 用 例 用 foreach 语句 按照 后 进 先 出 的 顺序 迭代 访问 所 有 栈 元 素 。 这 个 实现 的 基础 
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是 Java 的 语言 特性 ， 包 括 Iterable 和 Iterator， 但 我 们 没有 必要 深究 这 些 特 性 的 细节 ， 因 为 代 
码 本 身 并 不 复杂 ， 并 且 可 以 用 做 其 他 集合 数据 类 型 的 实现 的 模板 。 

例如 ， 我 们 在 实现 Queue 的 API 时 ， 可 以 使 用 两 个 实例 变量 作为 索引 ， 一 个 变量 head 指向 队 
列 的 开头 ， 一 个 变量 tail 指向 队列 的 结尾 ， 如 表 1.3.6 所 示 。 在 删除 一 个 元 素 时 ， 使 用 head 访问 
它 并 将 head 加 1; 在 插入 一 个 元 素 时 ， 使 用 tail 保存 它 并 将 tail 加 1。 如 果 某 个 索引 在 增加 之 
后 越过 了 数组 的 边界 则 将 它 重 置 为 0。 实现 检查 队列 是 否 为 空 、 是 和 否 充满 并 需要 调整 数组 大 小 的 细 
节 是 一 项 有 趣 而 又 实用 的 编程 练习 ( 请 见 练习 1.3.14 ) 。 


表 1.3.6 ”ResizingArrayQueue 的 测试 用 例 的 轨迹 


Stdin StdOut a[] 
N head tail 一 一 
(入 列 ) (出 列 ) 0 1 2 3 4 5 6 





5 0 & to be or not to 
- to 4 1 2 be or not to 
be 时 1 6 be 6F hot “Xo be 
= be 4 2 6 or hot To be 
- or 3 3 6 not to be 


在 算法 的 学 习 中 ,算法 1.1 十 分 重要 ， 因 为 它 几乎 (但 还 没有 ) 达到 了 任意 集合 类 数据 类 型 的 
实现 的 最 佳 性 能 : 

口 每 项 操作 的 用 时 都 与 集合 大 小 无 关 ; 

口 空间 需求 总 是 不 超过 集合 大 小 乘 以 一 个 常数 。 

ResizingArrayQueue 的 缺点 在 于 某 些 push() 和 popQ 操作 会 调整 数组 的 大 小 : 这 项 操作 的 
耗 时 和 栈 大 小 成 正比 。 下 面 ， 我 们 将 学 习 一 种 克服 该 缺陷 的 方法 ， 使 用 一 种 完全 不 同 的 方式 来 组 织 
数据 。 


算法 1.1 下 压 (LIFO) 栈 〈 能 够 动态 调整 数组 大 小 的 实现 ) 


import java.util.Iterator; 
public class ResizingArrayStack<Item> implements Iterable<Item> 
{ 
private Item[] a = (Item[]) new 0bject[1]; // 栈 元 素 
private int N = 0; // 元 素数 量 
public boolean isEmpty() { return N == 0; } 
public int size() { return N; } 
private void resize(int max) 
{ // 将 栈 移动 到 一 个 大 小 为 max 的 新 数组 
Item[] temp = (Item[]) new Object[max]; 
for Cint 1 = 0% 1 < Ns 13+) 
temp[i] = a[i]; 
a = temp; 
} 
public void push(Item item) 
{ // 将 元 素 添加 到 栈 顶 
if (CN == a.length) resize(2*a.length); 
a[N++] = item; 
} 
public Item popO) 
{ // 从 栈 顶 删 除 元 素 
Item item = a[--N]; 
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a[N] = nu11; // 避免 对 象 游离 (请 见 1.3.2.4 节 ) 
if (CN > 0 && N == a.length/4) resize(a.length/2); 
return item; 

} 

public Iterator<Item> iterator() 

{ return new ReverseArrayIterator(); } 
private class ReverseArrayIterator implements Iterator<Item> 
{ // 支持 后 进 先 出 的 迭代 

private int 1 = N; 

public boolean hasNext() { return 1 > 0; } 
public Item next() { return a[--i]; } 
public void remove() { } 


} 
} 


这 份 泛 型 的 可 迭代 的 Stack API 的 实现 是 所 有 集合 类 抽象 数据 类 型 实现 的 模板 。 它 将 所 有 元 素 
保存 在 数组 中 ， 并 动态 调整 数组 的 大 小 以 保持 数组 大 小 和 栈 大 小 之 比 小 于 一 个 常数 。 141 


1.3.3 ”链表 


现在 我 们 来 学 习 一 种 基础 数据 结构 的 使 用 ， 它 是 在 集合 类 的 抽象 数据 类 型 实现 中 表示 数据 
的 合适 选择 。 这 是 我 们 构造 非 Java 直接 支持 的 数据 结构 的 第 一 个 例子 。 我 们 的 实现 将 成 为 本 书 
中 其 他 更 加 复杂 的 数据 结构 的 构造 代码 的 模板 。 所 以 请 仔细 阅读 本 节 ， 即 使 你 已 经 使 用 过 链表 。 


定义 。 链 表 是 一 种 递归 的 数据 结构 , 它 或 者 为 空 nu11 ) ,或 者 是 指向 一 个 结 点 (node ) 的 引用 ， 
该 结 点 含有 一 个 泛 型 的 元 素 和 一 个 指向 另 一 条 链表 的 引用 。 


在 这 个 定义 中 ， 结 点 是 一 个 可 能 含有 任意 类 型 数据 的 抽象 实体 ， 它 所 包含 的 指向 结 点 的 应 
用 显示 了 它 在 构造 链表 之 中 的 作用 。 和 递归 程序 一 样 ， 递归 数据 结构 的 概念 一 开始 也 令 人 费解 ， 
但 其 实 它 的 简洁 性 赋予 了 它 巨大 的 价值 。 
1.3.3.1 结 点 记录 

在 面向 对 象 编程 中 ,实现 链表 并 不 困难 我们 首先 用 一 个 嵌 套 类 来 定义 结 点 的 抽象 数据 类 型 


private class Node 
{ 

Item item; 

Node next; 


一 个 Node 对 象 含 有 两 个 实例 变量 ， 类 型 分 别 为 Item ( 参数 类 型 ) 和 Node。 我 们 会 在 需要 
使 用 Node 类 的 类 中 定义 它 并 将 它 标记 为 private， 因 为 它 不 是 为 用 例 准备 的 。 和 任意 数据 类 型 
一 样 ， 我 们 通过 new Node() 触发 (无 参数 的 ) 构造 函数 来 创建 一 个 Node 类 型 的 对 象 。 调 用 的 
结果 是 一 个 指向 Node 对 象 的 引用 ， 它 的 实例 变量 均 被 初始 化 为 nu11。Item 是 一 个 占 位 符 ， 表 
示 我 们 希望 用 链表 处 理 的 任意 数据 类 型 (我 们 将 会 使 用 Java 的 泛 型 使 之 表示 任意 引用 类 型 ) ; 
Node 类 型 的 实例 变量 显示 了 这 种 数据 结构 的 链 式 本 质 。 为 了 强调 我 们 在 组 织 数 据 时 只 使 用 了 
Node 类 ， 我 们 没有 定义 任何 方法 且 会 在 代码 中 直接 引用 实例 变量 : 如 果 first 是 一 个 指向 某 个 
Node 对 象 的 变量 ， 我 们 可 以 使 用 fi rst.item 和 first.node 访问 它 的 实例 变量 。 这 种 类 型 的 
类 有 时 也 被 称 为 记录 。 它 们 实现 的 不 是 抽象 数据 类 型 因为 我 们 会 直接 使 用 其 实例 变量 。 但 是 在 
我 们 的 实现 中 ，Node 和 它 的 用 例 代码 都 会 被 封装 在 相同 的 类 中 且 无 法 被 该 类 的 用 例 访问 ， 所 以 
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我 们 仍然 能 够 享受 数据 抽象 的 好 处 。 
1.3.3.2 ”构造 链表 

现在 ,根据 递归 定义 ,我 们 只 需要 一 个 Node 类 型 的 变量 就 能 表示 一 条 链表 ， 只 要 保证 它 的 值 
是 nu11 或 者 指向 另 一 个 Node 对 象 且 该 对 象 的 next 域 指 向 了 另 一 条 链表 即 可 。 例 如 ， 要 构造 一 条 
含有 元 素 to、be 和 or 的 链表 ， 我们 首先 为 每 个 元 素 创造 一 个 结 点 : 


Node first = new NodeQO; 
Node second = new Node(); 
Node third = new Node(QO); 


并 将 每 个 结 点 的 item 域 设 为 所 需 的 值 ( 简单 起 见 ， 我 们 假设 在 这 些 例子 中 Item 为 String ) : 


first Ttem = "to"; 
second.item = "be"; 
third.item = "or"; 
然后 设置 next 域 来 构造 链表 : 
Tinst nex “= Seconds Node first = new Node(Q); 
second .next = third; first.item = "to"; 
(注意 : third.next 仍然 是 nu11， 即 对 i 让 
i ) 结果 是 ，third 是 er 
ee 点 的 引用 ， 该 结 点 指向 [null | 
OL Es 一 个 链表 ) ， second 也 是 一 条 链表 Node second = new Node() ; 
( 它 是 一 pe tp second.item = "be"， 
third 的 引用 ， 而 third 是 一 条 链表 ) ，fi rst first.next = second; 
也 是 一 条 链表 ( 它 是 一 个 结 点 的 引用 ， 且 该 结 点 first second 
含有 一 个 指向 second 的 引用 ,而 second 是 一 Ne SS 
条 链表 ) 。 图 1.3.5 所 示 的 代码 以 不 同 的 顺序 完 | = 


成 了 这 些 赋值 语句 。 
链表 表示 的 是 一 列 元 素 。 在 我 们 刚刚 考察 过 Node third = new Node(); 
于 中 ，irsr 表示 的 和 是 tp、be、 or 我。 Sirdiiten， om 
们 也 可 以 用 一 个 数组 来 表示 一 列 元 素 。 例 如 ， 可 
fi i 
以 用 以 下 数组 表示 同一 列 字 符 串 : third 


String[] s = { "to", "be", "or" }; 国生 [or | 


不 同 之 处 在 于 ， 在 链表 中 向 序列 插入 元 素 或 是 从 
序列 中 删除 元 素 都 更 方便 。 下 面 ， 我 们 来 学 习 完 
成 这 些 任 务 的 代码 。 

在 追踪 使 用 链表 和 其 他 链 式 结构 的 代码 时 ,我 们 会 使 用 可 视 化 表示 方法 : 

口 用 长 方形 表示 对 象 ; 

口 将 实例 变量 的 值 写 在 长 方形 中 ; 

口 用 指向 被 引用 对 象 的 箭头 表示 引用 关系 。 

这 种 表示 方式 抓 住 了 链表 的 关键 特性 。 方 便 起 见 ， 我 们 用 术语 链接 表示 对 结 点 的 引用 。 简 单 起 
见 ， 当 元 素 的 值 为 字符 串 时 ( 如 我 们 的 例子 所 示 ) ， 我 们 会 将 字符 串 写 在 长 方形 之 内 ， 而 非 使 用 1.2 
节 中 所 讨论 的 更 准确 的 方式 表示 字符 串 对 象 和 字符 数组 。 这 种 可 视 化 的 表示 方式 使 我 们 能 够 将 注意 
力 集中 在 链表 上 。 


图 1.3.5 用 链接 构造 一 条 链表 
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1.3.3.3 ”在 表 头 插入 结 点 

首先 , 假设 你 希望 向 一 条 链表 中 插入 一 个 新 的 结 点 。 最 容易 做 到 这 一 点 的 地 方 就 是 链表 的 开头 。 
例如 ,要 在 首 结 点 为 fi rst 的 给 定 链表 开头 插入 字符 串 not, 我 们 先 将 first 保存 在 o1dfirst 中 ， 
然后 将 一 个 新 结 点 赋予 first， 并 将 它 的 item 域 设 为 not，next 域 设 为 o1dfirst。 以 上 过 程 如 
图 1.3.6 所 示 。 这 段 在 链表 开头 插入 一 个 结 点 的 代码 只 需要 几 行 赋值 语句 ， 所 以 它 所 需 的 时 间 和 链 
表 的 长 度 无 关 。 
1.3.3.4 ”从 表 头 删除 结 点 

接 下 来 ， 假 设 你 希望 删除 一 条 链表 的 首 结 点 。 这 个 操作 更 简单 : 只 需 将 first 指向 fi rst， 
next 即 可 。 一 般 来 说 你 可 能 会 希望 在 赋值 之 前 得 到 该 元 素 的 值 ， 因 为 一 旦 改变 了 first 的 值 ， 就 
再 也 无 法 访问 它 曾经 指向 的 结 点 了 。 曾 经 的 结 点 对 象 变 成 了 一 个 孤儿 ，Java 的 内 存 管理 系统 最 终 将 
回收 它 所 占用 的 内 存 。 和 以 前 一 样 ， 这 个 操作 只 含有 一 条 赋值 语句 ， 因 此 它 的 运行 时 间 和 链表 的 长 
度 无 关 。 此 过 程 如 图 1.3.7 所 示 。 


保存 指向 链表 的 链接 
Node oldfirst = first; 
oldfirst 


\ 
first “EE 如- 


创建 新 的 首 结 点 
first = new Node(); 
oldfirst 


bb 
二 


设置 新 结 点 中 的 实例 变量 


first = first.next; 


first 一 >~[ to | 古 i 曾 
first.item = "not"; Ws 
first.next = oldfirst; |_null | 


a pe | Fae | 
和 和 


图 1.3.6 在 链表 的 开头 插入 一 个 新 结 点 图 1.3.7 删除 链表 的 首 结 点 


1.3.3.5 在 表 尾 插入 结 点 

如 何 才 能 在 链表 的 尾部 添加 一 个 新 结 点 ?要 完成 这 个 任务 ,我 们 需要 一 个 指向 链表 最 后 一 个 结 
点 的 链接 ， 因 为 该 结 点 的 链接 必须 被 修改 并 指向 一 个 含有 新 元 素 的 新 结 点 。 我 们 不 能 在 链表 代码 
中 草率 地 决定 维护 一 个 额外 的 链接 ， 因 为 每 个 修改 链表 的 操作 都 需要 添加 检查 是 否 要 修改 该 变量 
(以 及 作出 相应 修改 ) 的 代码 。 例 如 ， 我 们 刚刚 讨论 过 的 删除 链表 首 结 点 的 代码 就 可 能 改变 指向 
链表 的 尾 结 点 的 引用 ， 因 为 当 链表 中 只 有 一 个 结 点 时 ， 它 既是 首 结 点 又 是 尾 结 点 ! 另外 ， 这 段 代 
码 也 无 法 处 理 链表 为 空 的 情况 ( 它 会 使 用 空 链接 )。 类 似 这 些 情况 的 细节 使 链表 代码 特别 难以 调试 。 
在 链表 结尾 插入 新 结 点 的 过 程 如 图 1.3.8 所 示 。 
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1.3.3.6 ”其 他 位 置 的 插入 和 删除 操作 保存 指向 尾 结 点 的 链接 
总 的 来 说 ,我 们 已 经 展示 了 在 链表 中 。 Node oldlast = 1asti 
如 何 通过 若干 指令 实现 以 下 操作 ， 其 中 我 oe 
们 可 以 通过 firs 链 拉 访问 链 才 的 首 结 点 we- 和 
并 通过 1ast 链接 访问 链表 的 尾 结 点 : 本 


口 在 表 头 插入 结 点 ; 


口 从 表 头 删除 结 点 ; 创建 新 的 尾 结 点 
口 在 表 尾 插入 结 点 last = new Node() ; 
的 last.item = "not"; 
其 他 操作 ， 例如 以 下 几 种 ， 就 不 那么 oldlast 


last 


容易 实现 了 : \ 
[二 一 
L_ nu | 


口 删除 指定 的 结 点 ; 


[roe] 
TT 


口 在 指定 结 点 前 插入 一 个 新 结 点 。 Oe 
例如 ， 我 们 怎样 才能 删除 链表 的 尾 SO 汪 
结 点 呢 ? 1ast 链接 帮 不 上 忙 ， 因 为 我 们 oalast 


last 


需要 将 链表 尾 结 点 的 前 一 个 结 点 中 的 链接 ne 一直 二 \ 和 
= 下 
( 它 指 向 的 正 是 1ast ) 值 改 为 nu11。 在 


缺少 其 他 信息 的 情况 下 ， 唯 一 的 解决 办 法 
就 是 遍历 整 条 链表 并 找 出 指向 last 的 结 点 图 1.3.8 在 链表 的 结尾 插入 一 个 新 结 点 
(请 见 下 文 以 及 练习 1.3.19 ) 。 这 种 解决 
方案 并 不 是 我 们 想 要 的 ， 因 为 它 所 需 的 时 间 和 链表 的 长 度 成 正比 。 实 现任 意 插入 和 删除 操作 的 标准 
解决 方案 是 使 用 双向 链表 ， 其 中 每 个 结 点 都 含有 两 个 链接 ， 分 别 指向 不 同 的 方向 。 我 们 将 实现 这 些 
操作 的 代码 留 做 练习 ( 请 见 练习 1.3.31 ) 。 我 们 的 所 有 实现 都 不 需要 双向 链表 。 
1.3.3.7 ”遍历 

要 访问 一 个 数组 中 的 所 有 元 素 ， 我 们 会 使 用 如 下 代码 来 循环 处 理 a[] 中 的 所 有 元 素 : 

for (int i = 0; i1 < Ni i++) 

// 处 理 a[i] 

} 

访问 链表 中 的 所 有 元 素 也 有 一 个 对 应 的 方式 : 将 循环 的 索引 变量 x 初始 化 为 链表 的 首 结 点 ， 然 
后 通过 x.item 访问 和 x 相关 联 的 元 素 ， 并 将 x 设 为 x.next 来 访问 链表 中 的 下 一 个 结 点 ， 如 此 反 
复 直 到 x 为 nu11 为 止 (这 说 明 我 们 已 经 到 达 了 链表 的 结尾 ) 。 这 个 过 程 被 称 为 链表 的 遍历 ， 可 以 


用 以 下 循环 处 理 链表 的 每 个 结 点 的 代码 简洁 表达 ， 其 中 fi rst 指向 链表 的 首 结 点 : 
for (Node x = first; x != null; x = x.next) 
{ 
// 处 理 X.item 


这 种 方式 和 和 迭代 遍历 一 个 数组 中 的 所 有 元 素 的 标准 方式 一 样 自然 。 在 我 们 的 实现 中 ， 它 是 迭 代 
需 使 用 的 基本 方式 ， 它 使 用 例 能 够 迭代 访问 链表 的 所 有 元 素 而 无 需 知道 链表 的 实现 细节 。 
1.3.3.8 ” 栈 的 实现 

有 了 这 些 预 备 知识 ， 给 出 我 们 的 Stack API 的 实现 就 很 简单 了 ， 如 94 页 的 算法 1.2 所 示 。 它 将 
栈 保存 为 一 条 链表 ， 栈 的 顶部 即 为 表 头 ， 实 例 变 量 first 指向 栈 顶 。 这 样 ， 当 使 用 push() 压 入 一 
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个 元 素 时 ， 我 们 会 按照 1.3.3.3 节 所 讨论 的 代码 将 该 元 素 添 加 在 表 头 ; 当 使 用 pop 0) 删除 一 个 元 素 
时 ， 我 们 会 按照 1.3.3.4 节 讨 论 的 代码 将 该 元 素 从 表 头 删除 。 要 实现 sizeQ 方法 ， 我 们 用 实例 变量 
N 保存 元 素 的 个 数 ， 在 压 和 元素 时 将 N 加 1， 在 弹出 元 素 时 将 N 减 1。 要 实现 isEmpty() 方法 ， 只 
需 检查 first 是 否 为 nu11 ( 或 者 可 以 检查 N 是否 为 0) 。 该 实现 使 用 了 泛 型 的 Item 一 一 你 可 以 认 
为 类 名 后 的 <Item> 表示 的 是 实现 中 所 出 现 的 所 有 Item 都 会 替换 为 用 例 所 提供 的 任意 数据 类 型 的 
名 称 ( 请 见 1.3.2.2 节 ) 。 我 们 暂时 省 略 了 关于 迭代 的 代码 并 将 它们 留 到 算法 1.4 中 继续 讨论 。 图 1.3.9 
显示 了 我 们 所 常用 的 测试 用 例 的 轨迹 ( 测试 用 例 代码 放 在 了 图 后 面 ) 。 链 表 的 使 用 达到 了 我 们 的 最 
优 设计 目标 : 

口 它 可 以 处 理 任意 类 型 的 数据 ; 

口 所 需 的 空间 总 是 和 集合 的 大 小 成 正比 ; 

口 操作 所 需 的 时 间 总 是 和 集合 的 大 小 无 关 。 
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图 1.3.9 _ stack 的 开发 用 例 的 轨迹 





pubTlic Statc void main(tSstringl] arys) 


// 创建 一 个 栈 并 根据 StdIn 中 的 指示 压 入 或 弹出 字符 串 
Stack<String> = = new Stack<String>0): 


while CIStoln., TsEmpty(C) 






ng item = Stdin. readString():; 
"= 
ele yO StdOut print{s, Pop tw  ™): 
StaoOut. printlnt (” * SSize() + ” eft on stacky”Yys 
Stack 的 测试 用 例 


这 份 实现 是 我 们 对 许多 算法 的 实现 的 原型 。 它 定义 了 链表 数据 结构 并 实现 了 供用 例 使 用 的 方法 

push() 和 pop( , 仅 用 了 少量 代码 就 取得 了 所 期 望 的 效果 。 算 法 和 数据 结构 是 相辅相成 的 。 在 本 例 中 ， 

147| 算法 的 实现 代码 很 简单 ， 但 数据 结构 的 性 质 却 并 不 简单 ， 我 们 用 了 好 几 页 纸 来 说 明 这 些 性 质 。 这 种 
148 数据 结构 的 定义 和 算法 的 实现 的 相互 作用 很 常见 ， 也 是 本 书 中 我 们 对 抽象 数据 类 型 的 实现 重点 。 


算法 1.2 ”下 压 扒 栈 〈 链 表 实 现 ) 


public class Stack<Item> implements 工 berabie<IEent> 


{ 





private Node first; // 栈 顶 (最 近 添 加 的 元 素 ) 
private int N; // 元 素数 量 
private class Node 
{ // 定义 了 结 点 的 说 套 类 
Item item; 
Node next; 


} 
public boolean isEmpty() { return first == null; } // 或 : N == 0 
public int size() { return N; } 


public void push(Item item) 
{ // 向 栈 顶 添加 元 素 
Node oldfirst = first; 
first = new Node() ; 
first.item = item; 
first.next = oldfirst; 
N++; 
: 
public Item pop(O) 
{ // 从 栈 顶 删除 元 素 
Item item = first.item; 
first = first.next; 
N=—-; 
return item; 
} 
// iterator() 的 实现 请 见 算 法 1.4 
// 测试 用 例 main() 的 实现 请 见 本 节 前 面部 分 
} % more tobe.txt 


to be or not to - be- -that - - -is 
这 份 泛 型 的 Stack 实现 的 基础 是 链表 数据 结构 。 


它 可 以 用 于 创建 任意 数据 类 型 的 栈 。 要 支持 迭代 , 请  % java Stack < tobe.txt 


to be not that or be (2 left on stack) 
ED 添加 算法 1.4 中 为 Bag 数 据 类 型 给 出 的 加 粗 部 分 的 代码 。 
149 
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1.3.3.9 队列 的 实现 

基于 链表 数据 结构 实现 Queue API 也 很 简单 ， 如 算法 1.3 所 示 。 它 将 队列 表示 为 一 条 从 最 早 插 
人 的 元 素 到 最 近 搬 和 人 的 元 素 的 链表 ， 实 例 变量 first 指向 队列 的 开头 ， 实 例 变 量 1ast 指向 队列 的 
结尾 。 这样 , 要 将 一 个 元 素 入 列 ( enqueue() ) , 我 们 就 将 它 添加 到 表 尾 (请 见 图 1.3.8 中 讨论 的 代码 ， 
但 是 在 链表 为 空 时 需要 将 first 和 1ast 都 指向 新 结 点 ) ; 要 将 一 个 元 素 出 列 (dequeue() ) ,我 
们 就 删除 表 尖 的 结 点 (代码 和 Stack 的 popQ 〇 方法 相同 ， 只 是 当 链表 为 空 时 需要 更 新 1ast 的 值 ) 。 
size() 和 isEmpty( 方法 的 实现 和 Stack 相同 。 和 Stack 一 样 ，Queue 的 实现 也 使 用 了 泛 型 参数 
Item。 这 里 我 们 省 略 了 支持 迭代 的 代码 并 将 它们 留 到 算法 1.4 中 继续 讨论 。 下 面 所 示 的 是 一 个 开发 
用 例 ， 它 和 我 们 在 Stack 中 使 用 的 用 例 很 相似 ， 它 的 轨迹 如 算法 1.3 所 示 。Queue 的 实现 使 用 的 数 
据 结构 和 Stack 相同 一 一 链表 ， 但 它 实现 了 不 同 的 添加 和 删除 元 素 的 算法 ， 这 也 是 用 例 所 看 到 的 后 
进 先 出 和 先进 后 出 的 区 别 所 在 。 和 刚才 一 样 ， 我 们 用 链表 达到 了 最 优 设计 目标 : 它 可 以 处 理 任意 类 
型 的 数据 ， 所 需 的 空间 总 是 和 集合 的 大 小 成 正比 ， 操 作 所 需 的 时 间 总 是 和 集合 的 大 小 无 关 。” 





public static void main(String[] args) 
{ // 创建 一 个 队列 并 操作 字符 串 入 列 或 出 列 


Queue<String> q = new Queue<String>(); 


while (!StdIn.isEmpty()) 
b 
String item = StdIn.readString(); 
if (!item.equals("-")) 
q.enqueue(item); 
else if (!q.isEmpty()) StdOut.print(q,.dequeue() + " "); 
: 


StdOut.print1in("(" + q.size() + " left on queue)"); 
Queue 的 测试 用 例 


% more tobe.txt 
to be or not to - be- - that - - -is 


% java Queue < tobe.txt 
to be or not to be (2 left on queue) 


算法 1.3 ”先进 先 出 队列 


public class Queue<Item> imyiements Tterable<lten> 
4. 
private Node first; // 指向 最 早 添加 的 结 点 的 链接 
private Node 1ast; // 指向 最 近 添 加 的 结 点 的 链接 
private int N; // 队列 中 的 元 素数 量 
private class Node 
{ // 定义 了 结 点 的 谋 套 类 


Q 这 里 原 书 应 该 是 因为 版 面 原因 没有 使 用 列表 ,如 果 版 面 允 许可 以 使 用 和 Stack 部 分 相同 的 列表 显示 这 三 个 目标 。 
一 一 译 者 注 
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Item item; 

Node next; 
} 
public boolean isEmpty() { return first == null; } // 或 : == 0. 
public int size() { return N; } 


public void enqueue(Item item) 

{ // 向 表 尾 添加 元 素 
Node oldlast = last; 
last = new Node() ; 
last.item = item; 
last.next = null; 
if (isEmpty()) first = last; 
else oldlast.next = last; 
N++; 

} 

public Item dequeue() 

{ // 从 表 头 删除 元 素 
Item item = first.item; 
first 三 first next 
if (isEmpty()) last = null; 
N--; 
return item; 

// iterator() 的 实现 请 见 算法 1.4 

// 测试 用 例 main() 的 实现 请 见 前 面 

} 


这 份 泛 型 的 Queue 实现 的 基础 是 链表 数据 结构 。 它 可 以 用 于 创建 任意 数据 类 型 的 队列 。 要 支持 迭代 ， 
请 添加 算法 1.4 中 为 Bag 数据 类 型 给 出 的 加 粗 部 分 的 代码 。 


Queue 的 开发 用 例 的 轨迹 如 图 1.3.10 所 示 。 

在 结构 化 存储 数据 集 时 ， 链 表 是 数组 的 一 种 重要 的 替代 方式 。 这 种 替代 方案 已 经 有 数 十 年 的 历 
史 。 事 实 上 ， 编 程 语言 历史 上 的 一 块 里 程 碑 就 是 McCathy 在 20 世纪 50 年 代 发 明 的 LISP 语言 ， 而 
链表 则 是 这 种 语言 组 织 程 序 和 数据 的 主要 结构 。 在 练习 中 你 会 发 现 ， 链 表 编 程 也 会 遇 到 各 种 问题 ， 
且 调 试 十 分 困难 。 在 现代 编程 语言 中 ， 安 全 指针 、 自 动 垃圾 回收 (请 见 1.2 节 答 疑 部 分 ) 和 抽象 数 
据 类 型 的 使 用 使 我 们 能 够 将 链表 处 理 的 代码 封装 在 若干 个 类 中 ， 正 如 本 文 所 述 。 
1.3.3.10 背包 的 实现 

用 链表 数据 结构 实现 我 们 的 Bag API 只 需要 将 Stack 中 的 pushQ 改名 为 addC) ， 并 去 掉 
popQ 的 实现 即 可 ， 如 算法 1.4 所 示 (也 可 以 用 相同 的 方法 实现 Queue， 但 需要 的 代码 更 多 ) 。 
在 这 份 实现 中 ， 加 粗 部 分 的 代码 可 以 通过 遍历 链表 使 Stack、Queue 和 Bag 变 为 可 迭代 的 。 对 
于 Stack， 链 表 的 访问 顺序 是 后 进 先 出 ; 对 于 Queue， 链 表 的 访问 顺序 是 先进 先 出 ; 对 于 Bag， 
它 正好 也 是 后 进 先 出 的 顺序 ， 但 顺序 在 这 里 并 不 重要 。 如 算法 1.4 中 加 粗 部 分 的 代码 所 示 ， 要 在 
集合 数据 类 型 中 实现 迭代 ， 第 一 步 就 是 要 添加 下 面 这 行 代码 ， 这 样 我 们 的 代码 才能 引用 Java 的 
Iterator 接口 : 


import java.util.Iterator; 
第 二 步 是 在 类 的 声明 中 添加 这 行 代码 ， 它 保证 了 类 必然 会 提供 一 个 iteratorQ 方法 : 


implements Iterable<Item> 
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图 1.3.10”Queue 的 开发 用 例 的 轨迹 


iterator() 方法 本 身 只 是 简单 地 从 实现 了 Iterator 接口 的 类 中 返回 一 个 对 象 : 


public Iterator<Item> iterator() 
{ return new ListIterator(); } 


这 段 代 码 保证 了 类 必然 会 实现 方法 hasNext() 、next() 和 remove() 供用 例 的 foreach 语 
法 使 用 。 要 实现 这 些 方法 ， 算 法 1.4 中 的 艇 套 类 ListIterator 维护 了 一 个 实例 变量 current 
来 记录 链表 的 当前 结 点 。hasNext0 方法 会 检测 current 是 否 为 nu11，next0 方法 会 保存 当 152 
前 元 素 的 引用 ,将 current 变量 指向 链表 中 的 下 个 结 点 并 返回 所 保存 的 引用 。 154 
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算法 1.4 背包 
import java.util.Iterator; 
public class Bag<Item> implements Iterable<Item> 


. 
private Node first; // 链表 的 首 结 点 
private class Node 


{ 
Item item; 
Node next; 


public void add(Item item) 

{ // 和 Stack 的 push() 方法 完全 相同 
Node oldfirst = first; 
first = new Node(); 
first.item = item; 
first.next = oldfirst; 


public Iterator<Item> iterator() 
{ return new ListIterator(); } 
private class ListIterator implements Iterator<Item> 
{ 
private Node current = first; 
public boolean hasNext() 
{ return current != null; } 
public void remove() { } 
public Item next() 
: 
Item item = current.item; 
Current = current.next; 
return item; 


} 

} 

这 份 Bag 的 实现 维护 了 一 条 链表 ， 用 于 保存 所 有 通过 add() 添加 的 元 素 。size() 和 isEmpty() 方 
法 的 代码 和 Stack 中 的 完全 相同 ， 因 此 在 此 处 省 略 。 和 迭代 器 会 遍历 链表 并 将 当前 结 点 保存 在 current 变 
量 中。 我 们 可 以 将 加 粗 的 代码 添加 到 算法 1.1 和 算法 1.2 中 使 stack 和 Queue 变 为 可 迭代 的 ， 因 为 它们 
背后 的 数据 结构 是 相同 的 ， 只 是 Stack 和 Queue 的 链表 访问 顺序 分 别 是 后 进 先 出 和 先进 先 出 而 已 。 


1.3.4 ”综述 


在 本 节 中 ， 我 们 所 学 习 的 支持 泛 型 和 迭代 的 背包 、 队 列 和 栈 的 实现 所 提供 的 抽象 使 我 们 能 够 编 
写 简洁 的 用 例 程序 来 操作 对 象 的 集合 。 深 入 理解 这 些 抽象 数据 类 型 非常 重要 ， 这 是 我 们 研究 算法 和 
数据 结构 的 开始 。 原 因 有 三 : 第 一 ,我们 将 以 这 些 数据 类 型 为 基石 构造 本 书 中 的 其 他 更 高 级 的 数据 
结构 ; 第 二 ， 它 们 展示 了 数据 结构 和 算法 的 关系 以 及 同时 满足 多 个 有 可 能 相互 冲突 的 性 能 目标 时 所 
要 面 对 的 挑战 ; 第 三 ， 我 们 将 要 学 习 的 若干 算法 的 实现 重点 就 是 需要 其 中 的 抽象 数据 类 型 能 够 支持 
对 对 象 集合 的 强大 操作 ， 这 些 实现 正 是 我 们 的 起 点 。 
数据 结构 

我 们 现在 拥有 两 种 表示 对 象 集合 的 方式 ， 即 数组 和 链表 ( 如 表 1.3.7 所 示 ) 。Java 内 置 了 数组 ， 
链表 也 很 容易 使 用 Java 的 标准 方法 实现 。 两 者 都 非常 基础 ， 常 常 被 称 为 顺序 存储 和 链 式 存储 。 在 本 
书后 面部 分 ， 我 们 会 在 各 种 抽象 数据 类 型 的 实现 中 将 多 种 方式 结 归 并 扩展 这 些 基本 的 数据 结构 。 其 
中 一 种 重要 的 扩展 就 是 各 种 含有 多 个 链接 的 数据 结构 。 例 如 ，3.2 节 和 3.3 节 的 重点 就 是 被 称 为 二 又 
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树 的 数据 结构 ， 它 由 含有 两 个 链接 的 结 点 组 成 。 男 一 个 重要 的 扩展 是 复合 型 的 数据 结构 : 我 们 可 以 
使 用 背包 存储 栈 , 用 队列 存储 数组 , 等 等 。 例如 , 第 4 章 的 主题 是 图 , 我 们 可 以 用 数组 的 背包 表示 它 。 
用 这 种 方式 很 容易 定义 任意 复杂 的 数据 结构 ， 而 我 们 重点 研究 抽象 数据 类 型 的 一 个 重要 原因 就 是 试 


表 1.3.7 基础 数据 结构 


数据 结构 优 点 缺 ”点 
数组 通过 索引 可 以 直接 访问 任意 元 素 在 初始 化 时 就 需要 知道 元 素 的 数量 
链表 使 用 的 空间 大 小 和 元 素数 量 成 正比 需要 通过 引用 访问 任意 元 素 156 


我 们 在 本 节 中 研究 背包 、 队 列 和 栈 时 描述 数据 结构 和 算法 的 方式 是 全 书 的 原型 ( 本 书 中 的 数据 
结构 示例 见 表 1.3.8 ) 。 在 研究 一 个 新 的 应 用 领域 时 ， 我 们 将 会 按照 以 下 步骤 识别 目标 并 使 用 数据 抽 
象 解决 问题 

口 定义 API; 

口 根据 特定 的 应 用 场景 开发 用 例 代码 ; 

口 描述 一 种 数据 结构 (一 组 值 的 表示 ) ， 并 在 API 所 对 应 的 抽象 数据 类 型 的 实现 中 根据 它 定 

义 类 的 实例 变量 ; 

口 描述 算法 〈 实 现 一 组 操作 的 方式 ) ， 并 根据 它 实 现 类 中 的 实例 方法 ; 

口 分 析 算法 的 性 能 特点 。 

在 下 一 节 中 ， 我 们 会 详细 研究 最 后 一 步 ， 因 为 它 常常 能 够 决定 哪 种 算法 和 实现 才 是 解决 现实 应 
用 问题 的 最 佳 选择 。 


表 1.3.8 本 书 所 给 出 的 数据 结构 举例 


数据 结构 奎 节 抽象 数据 类 型 数据 表示 
父 链接 树 1.5 UnionFind 整 型 数组 
二 分 查找 树 S33 BST 含有 两 个 链接 的 结 点 
字符 串 5.1 String 数组 、 偏 移 量 和 长 度 
二 叉 堆 2.4 PQ 对 象 数组 
散 列 表 ( 拉链 法 ) 3.4 SeparateChainingHashST ”链表 数组 
散 列 表 ( 线性 探测 法 ) 3.4 LinearProbingHashST 两 个 对 象 数组 
图 的 邻接 链表 4.1、4.2 Graph Bag 对 象 的 数组 
单词 查找 树 ， 5.2 TrieST 含有 链接 数组 的 结 点 
三 向 单词 查找 树 5.3 TS 含有 三 个 链接 的 结 点 139 


图 答 颖 


问 并 不 是 所 有 编程 语言 都 支持 泛 型 ， 其 至 Java 的 早期 版 本 也 不 支持 。 有 其 他 替代 方案 吗 ? 

答 如 正文 所 述 ， 一 种 替代 方法 是 为 每 种 类 型 的 数据 都 实现 一 个 不 同 的 集合 数据 类 型 。 另 一 种 方法 是 构 
造 一 个 0bject 对 象 的 栈 ， 并 在 用 例 中 使 用 popQ 时 将 得 到 的 对 象 转换 为 所 需 的 数据 类 型 。 这 种 方 
式 的 问题 在 于 类 型 不 匹配 错误 只 能 在 运行 时 发 现 。 而 在 泛 型 中 ， 如 果 你 的 代码 将 错误 类 型 的 对 象 压 
入 栈 中 ， 比 如 这 样 : 


100 > 


耻 可 


蓄 可 


问 


蒂 


芝 本 


芝 可 


问 


芝 可 哎 
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Stack<Apple> stack = new Stack<Apple>() ; 
Apple a = new AppleQO); 


OBE b = new Orange() ; 

SEE 

Sa // 编译 时 错误 

会 得 到 一 个 编译 时 错误 : 

push(Apple) in Stack<Apple> cannot be applied to (Orange) 

能 够 在 编译 时 发 现 错误 足以 说 服 我 们 使 用 泛 型 。 

为 什么 Java 不 允许 泛 型 数组 ? 

专家 们 仍然 在 争论 这 一 点 。 你 可 能 也 需要 成 为 专家 才能 理解 它 ! 对 于 初学 者 ， 请 先 了 解 共 变数 组 
( covariant array ) 和 类 型 擦 除 (type erasure ) 。 

如 何 才能 创建 一 个 字符 串 栈 的 数组 ? 

使 用 类 型 转换 ， 比 如 : 

Stack<String>[] a = (Stack<String>[]) new Stack[N]; 

警告 : 这 段 类 型 转换 的 用 例 代码 和 1.3.2.2 节 所 示 的 有 所 不 同 。 你 可 能 会 以 为 需要 使 用 0bject 而 非 
Stack。 在 使 用 泛 型 时 ，Java 会 在 编译 时 检查 类 型 的 安全 性 ， 但 会 在 运行 时 抛弃 所 有 这 些 信 息 。 因 
此 在 运行 时 语句 右 侧 就 变 成 了 Stack<0bject>[] 或 者 只 剩 下 了 Stack[] ， 因 此 我 们 必须 将 它们 转化 
为 Stack<String>[]。 

在 栈 为 空 时 调用 popQ 〇 会 发 生 什 么 ? 

这 取决 于 实现 。 对 于 我 们 在 算法 1.2 中 给 出 的 实现 ， 你 会 得 到 一 个 Nu11PointerException 异常 。 
对 于 我 们 在 本 书 的 网 站 上 给 出 的 实现 , 我 们 会 抛 出 一 个 运行 时 异常 以 帮助 用 户 定位 错误 。 一 般 来 说 ， 
在 应 用 广泛 的 代码 中 这 类 检查 越 多 越 好 。 

既然 有 了 链表 ， 为 什么 还 要 学 习 如 何 调整 数组 的 大 小 ? 

我 们 还 将 会 学 习 若 干 抽象 数据 类 型 的 示例 实现 , 它们 需要 使 用 数组 来 实现 一 些 链表 难以 实现 的 操作 。 
ResizingArrayStack 是 控制 它们 的 内 存 使 用 的 样板 。 

为 什么 将 Node 声明 为 柑 套 类 ?为 什么 使 用 private ? 

将 Node 声明 为 私有 的 嵌 套 类 之 后 ， 我 们 可 以 将 Node 的 方法 和 实例 变量 的 访问 范围 限制 在 包含 它 的 
类 中 。 私 有 内 套 类 的 一 个 特点 是 只 有 包含 它 的 类 能 够 直接 访问 它 的 实例 变量 ， 因 此 无 需 将 它 的 实例 
变量 声明 为 pub1ic 或 是 private。 专 业 背 景 较 强 的 读者 注意 : 非 静态 的 藤 套 类 也 被 称 为 内 部 类 ， 
因此 从 技术 上 来 说 我 们 的 Node 类 也 是 内 部 类 ， 尽 管 非 泛 型 的 类 也 可 以 是 静态 的 。 

当 我 输入 javac Stack.java 运行 算法 1.2 和 其 他 程序 时 ， 我 发 现 了 Stack.class 和 Stack$Node.class 
两 个 文件 。 第 二 个 文件 是 做 什么 用 的 ? 

第 二 个 文件 是 为 内 部 类 Node 创建 的 。Java 的 命名 规则 会 使 用 $ 分 隔 外 部 类 和 内 部 类 。 

Java 标准 库 中 有 栈 和 队列 吗 ? 

有 ， 也 没有 。Java 有 一 个 内 置 的 库 ， 叫 做 java.util.Stack， 但 你 需要 栈 的 时 候 请 不 要 使 用 它 。 它 新 增 
了 几 个 一 般 不 属于 栈 的 方法 ， 例 如 获取 第 i 个 元 素 。 它 还 允许 从 栈 底 添加 元 素 ( 而 非 栈 项 ) ， 所 以 
它 可 以 被 当做 队列 使 用 ! 尽管 拥有 这 些 额 外 的 操作 看 起 来 可 能 很 有 用 ， 但 它们 其 实 是 累 效 。 我 们 使 
用 某 种 数据 类 型 不 仅仅 是 为 了 获得 我 们 能 够 想象 的 各 种 操作 ， 也 是 为 了 准确 地 指定 我 们 所 需要 的 操 
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作 。 这 么 做 的 主要 好 处 在 于 系统 能 够 防止 我 们 执行 一 些 意 外 的 操作 。java.util.Stack 的 API 是 宽 接 口 
的 一 个 典型 例子 ， 我 们 通常 会 极力 避免 出 现 这 种 情况 。 

是 否 允 许 用 例 向 栈 或 队列 中 添加 空 (nu11 ) 元 素 ? 

在 Java 中 实现 集合 类 数据 类 型 时 这 个 问题 是 很 常见 的 。 我 们 的 实现 ( 以 及 Java 的 栈 和 队列 库 ) 允许 
插入 nu1]1 值 。 

如 果 用 例 在 迭代 中 调用 pushQ 〇 或 者 pop QO，Stack 的 迭代 器 应 该 怎么 办 ? 

作为 一 个 快速 出 错 的 迭代 器 ， 它 应 该 立即 抛 出 一 个 java.uti1.ConcurrentModifi-cationException 
异常 。 请 见 练习 1.3.50。 

问 ”我 们 能 够 用 foreach 循环 访问 数组 吗 ? 

答 可 以 (尽管 数组 没有 实现 Iterable 接口 ) 。 以 下 代码 将 会 打印 所 有 命令 行 参数 : 


public static void main(CString[] args) 
{ for (String s : args) StdOut.printin(s); } 


问 ”我 们 能 够 用 foreach 循环 访问 字符 串 吗 ? 

答 不 行 ，String 没有 实现 Iterable 接口 。 

问 ”为 什么 不 实现 一 个 单独 的 Collection 数据 类 型 并 实现 添加 元 素 、 删 除 最 近 插 入 的 元 素 、 删 除 最 早 
插入 的 元 素 、 删 除 随 机 元 素 、 迭 代 、 返 回 集合 元 素数 量 和 其 他 我 们 可 能 需要 的 方法 ? 这样 我 们 就 能 
在 一 个 类 中 实现 所 有 这 些 方法 并 可 以 应 用 于 各 种 用 例 。 

再 次 强调 一 闹 ， 这 又 是 一 个 宽 接 口 的 例子 。Java 在 它 的 java.uti1.ArrayList 和 java.uti1.LinkedList 
类 的 实现 中 犯 过 这 样 的 错误 。 避 人 免 使 用 它们 的 一 个 原因 是 这 样 无 法 保证 高 效 实现 所 有 这 些 方法 。 
在 本 书 中 ,我们 总 是 以 API 作为 设计 高 效 算 法 和 数据 结构 的 起 点 ， 而 设计 只 含有 几 个 操作 的 接口 
显然 比 设 计 含 有 许多 操作 的 接口 更 简单 。 我 们 坚持 罕 接 口 的 另 一 个 原因 是 它们 能 够 限制 用 例 的 行 
为 ， 这 将 使 用 例 代码 更 加 易 懂 。 如 果 一 段 用 例 代 码 使 用 Stack<String>， 而 另 一 段 用 例 代 码 使 用 
Queue<Transaction>， 我 们 就 可 以 知道 后 进 先 出 的 访问 顺序 对 于 前 者 很 重要 ， 而 先进 先 出 的 访问 顺 
序 对 于 后 者 很 重要 。 


莹 百 


蓄 本 


芒 


图 练习 


1.3.1 为 FixedCapacityStack0fStrings 添加 一 个 方法 1sFu110) 。 
1.3.2 ”给 定 以 下 输入 ，java Stack 的 输出 是 什么 ? 

it was - the best - of times - - - it was -the - - 
1.3.3 假设 某 个 用 例 程序 会 进行 一 系列 人 栈 和 出 栈 的 混合 栈 操 作 。 和 人 栈 操作 会 将 整数 0 到 9 按 顺序 压 人 

栈 ; 出 栈 操作 会 打印 出 返回 值 。 下 面 哪 种 序列 是 不 可 能 产生 的 ? 

3 

b.4687532901 

G256067489310 

对 3 

全 亚 归 有 人 全 全 又 必 

E0465381729 

gl1479865302 

志和 十 村 六 各 790 
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1.3.4 


1.3.5 


1.3.10 


1.3.11 


1.3.12 


1.3.13 


1.3.14 


编写 一 个 Stack 的 用 例 Parentheses， 从 标准 输入 中 读 取 一 个 文本 流 并 使 用 栈 判定 其 中 的 括 
号 是 否 配对 完整 。 例 如 ， 对 于 [GO]ft}LIGO (CI](COT 程序 应 该 打印 true， 对 于 [GO) 则 打印 
false, 
当 N 为 50 时 下 面 这 段 代 码 会 打印 什么 ?从 较 高 的 抽象 层次 描述 给 定 正 整数 N 时 这 段 代码 的 行为 。 
Stack<Integer> stack = new Stack<Integer>(); 
while (CN > 0) 
{ 
stack.push(N % 2); 
N'sN 4 Zs 
} 
for (int d : stack) StdOut.print(d); 
StdOut.print1n(); 


答 : 打印 N 的 二 进 制 表示 ( 当 N 为 50 时 打印 110010 ) 。 
下 面 这 段 代码 对 队列 q 进行 了 什么 操作 ? 
Stack<String> stack = new Stack<String>() ; 
while (!q.isEmpty()) 

stack.push(q.dequeue()); 


while (!stack.isEmpty()) 
q.enqueue(stack.pop()); 


为 Stack 添加 一 个 方法 peek()， 返回 栈 中 最 近 添加 的 元 素 ( 而 不 弹出 它 ) 。 
给 定 以 下 输入 ,给 出 Doub1ingStackofStrings 的 数组 的 内 容 和 大 小 。 


it was - the best - of times - - - it was - the - - 


编写 一 段 程序 ， 从 标准 输入 得 到 一 个 缺少 左 括号 的 表达 式 并 打印 出 补 全 括号 之 后 的 中 序 表 达 式 。 
例如 ， 给 定 输入 : 

二 

你 的 程序 应 该 输出 : 

GK 

编写 一 个 过 滤器 InfixToPostfix， 将 算术 表达 式 由 中 序 表达 式 转 为 后 序 表达 式 。 
编写 一 段 程序 EvaluatePostfix ， 从 标准 输入 中 得 到 一 个 后 序 表达 式 ， 求 值 并 打印 结果 (将 上 一 题 
的 程序 中 得 到 的 输出 用 管道 传递 给 这 一 段 程序 可 以 得 到 和 Evaluate 相同 的 行为 ) 。 

编写 一 个 可 迭代 的 Stack 用 例 ， 它 含有 一 个 静态 的 copy 0) 方法， 接受 一 个 字符 串 的 栈 作为 参数 
并 返回 该 栈 的 一 个 副本 。 注 意 : 这 种 能 力 是 迭代 絮 价 值 的 一 个 重要 体现 ， 因 为 有 了 它 我 们 无 需 
改变 基本 API 就 能 够 实现 这 种 功能 。 

假设 某 个 用 例 程序 会 进行 一 系列 入 列 和 出 列 的 混合 队列 操作 。 入 列 操作 会 将 整数 0 到 9 按 顺序 
插入 队列 ; 出 列 操作 会 打印 出 返回 值 。 下 面 哪 种 序列 是 不 可 能 产生 的 ? 
a0123456789 

b.4687532901 

G2 5 G7 和 和 从 

d4321056789 

编写 一 个 类 ResizingArrayQueue0fStrings， 使 用 定 长 数组 实现 队列 的 抽象 ， 然 后 扩展 实现 ， 
使 用 调整 数组 的 方法 突破 大 小 的 限制 。 


起 3 


1:3:16 


1.3.17 
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编写 一 个 Queue 的 用 例 ， 接 受 一 个 命令 行 参数 k 并 打印 出 标准 输入 中 的 倒数 第 k 个 字符 串 〈 假 
设 标准 输入 中 至 少 有 k 个 字符 串 ) 。 

使 用 1.3.1.5 节 中 的 readInts() 作为 模板 为 Date 编写 一 个 静态 方法 readDates() ， 从 标准 输入 
中 读 取 由 练习 1.2.19 的 表格 所 指定 的 格式 的 多 个 日 期 并 返回 一 个 它们 的 数组 。 

为 Transaction 类 完成 练习 1.3.16。 


图 链表 练习 


这 部 分 练习 是 专门 针对 链表 的 。 建 议 : 使 用 正文 中 所 述 的 可 视 化 表达 方式 画图 。 


13518 


1.3.19 
1.3.20 
1.3.21 


1.3.22 


1.3.23 


1.3.24 


1.3.25 


1:3.26 


1.3.27 


1.3.28 
1.3.29 


1.3.30 


假设 x 是 一 条 链表 的 某 个 结 点 且 不 是 尾 结 点 。 下 面 这 条 语句 的 效果 是 什么 ? 
xX.next = x.next.next; 

答 : 删除 x 的 后 续 结 点 。 

给 出 一 段 代 码 ， 删 除 链表 的 尾 结 点 ， 其 中 链表 的 首 结 点 为 first。 

编写 一 个 方法 delete() ， 接 受 一 个 int 参数 k， 删 除 链表 的 第 k 个 元 素 ( 如 果 它 存在 的 话 ) 。 
编写 一 个 方法 findG) ， 接 受 一 条 链表 和 一 个 字符 串 key 作为 参数 。 如 果 链 表 中 的 某 个 结 点 的 
itenm 域 的 值 为 key， 则 方法 返回 true， 否 则 返回 false。 

假设 x 是 一 条 链表 中 的 某 个 结 点 ， 下 面 这 段 代码 做 了 什么 ? 


t.next = x.next; 
x.next = 七 ; 


答 : 插入 结 点 上 并 使 它 成 为 x 的 后 续 结 点 。 
为 什么 下 面 这 段 代 码 和 上 一 道 题 中 的 代码 效果 不 同 ? 


x.next = 七 ; 
t.next = x.next; 


答 : 在 更 新 t.next 时 ，x.next 已 经 不 再 指向 x 的 后 续 结 点 ， 而 是 指向 t 本 身 ! 
编写 一 个 方法 removeAfter() ， 接 受 一 个 链表 结 点 作为 参数 并 删除 该 结 点 的 后 续 结 点 〈 如 果 参 
数 结 点 或 参数 结 点 的 后 续 结 点 为 空 则 什么 也 不 做 ) 。 

编写 一 个 方法 insertAfter() ， 接 受 两 个 链表 结 点 作为 参数 ， 将 第 二 个 结 点 插 和 人 链表 并 使 之 成 
为 第 一 个 结 点 的 后 续 结 点 ( 如 果 两 个 参数 为 空 则 什么 也 不 做 ) 。 [164] 
编写 一 个 方法 remove() ， 接 受 一 条 链表 和 一 个 字符 串 key 作为 参数 ， 删 除 链表 中 所 有 item 域 
为 key 的 结 点 。 

编写 一 个 方法 max() ， 接 受 一 条 链表 的 首 结 点 作为 参数 ， 返 回 链表 中 键 最 大 的 节点 的 值 。 假 设 所 
有 键 均 为 正 整数 ， 如 果 链 表 为 空 则 返回 0。 

用 递归 的 方法 解答 上 一 道 练 习 。 

用 环形 链表 实现 Queue。 环 形 链表 也 是 一 条 链表 ， 只 是 没有 任何 结 点 的 链接 为 空 ， 且 只 要 链表 非 
空 则 1ast.next 的 值 为 first。 只 能 使 用 一 个 Node 类 型 的 实例 变量 (1ast ) 。 

编写 一 个 函数 ， 接 受 一 条 链表 的 首 结 点 作为 参数 ，( 破坏 性 地 ) 将 链表 反 转 并 返回 结果 链表 的 
首 结 点 。 

和 迭代 方式 的 解答 : 为 了 完成 这 个 任务 ,我 们 需要 记录 链表 中 三 个 连续 的 结 点 : reverse、first 
和 second。 在 每 轮 迭代 中 ,我 们 从 原 链表 中 提取 结 点 fi rst 并 将 它 插入 到 逆 链 表 的 开头 。 我 们 
需要 一 直 保 持 first 指向 原 链表 中 所 有 剩余 结 点 的 首 结 点 ，second 指向 原 链 表 中 所 有 剩余 结 点 
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166 


1.3.31 


1.3.32 


1.3.33 


章 基 础 


的 第 二 个 结 点 ，reverse 指向 结果 链表 中 的 首 结 点 。 
public Node reverse(Node x) 
{ 
Node first = Xi; 
Node reverse = null; 
while (first != null1) 
下 
Node second = first.next; 
first.next = reverse; 
reverse = first; 
first = Second; 
} 
return reverse; 


} 

在 编写 和 链表 相关 的 代码 时 ,我 们 必须 小 心 处 理 异 常情 况 ( 链表 为 空 或 是 只 有 一 个 或 两 个 结 点 ) 
和 边界 情况 〈 处 理 首尾 结 点 ) 。 它 们 通常 比 处 理 正常 情况 要 困难 得 多 。 

递归 解答 : 假设 链表 含有 N 个 结 点 ， 我 们 先 递归 颠倒 最 后 N-1 个 结 点 ， 然 后 小 心地 将 原 链表 中 
的 首 结 点 插入 到 结果 链表 的 末端 。 


public Node reverse(Node first) 
{ 
if (Cfirst == null) return null; 
if (first.next == nul1) return first; 
Node second = first.next; 
Node rest = reverse(second); 
second.next = first; 
firstenext = nulis 
return rest; 


} 

实现 一 个 典 套 类 DoubleNode 用 来 构造 双向 链表 ， 其 中 每 个 结 点 都 含有 一 个 指向 前 驱 元 素 的 引用 
和 一 项 指向 后 续 元 素 的 引用 ( 如 果 不 存 在 则 为 nu11 ) 。 为 以 下 任务 实现 若干 静态 方法 : 在 表 头 
插入 结 点 、 在 表 尾 插入 结 点 、 从 表 头 删除 结 点 、 从 表 尾 删除 结 点 、 在 指定 结 点 之 前 插入 新 结 点 、 
在 指定 结 点 之 后 插入 新 结 点 、 删 除 指定 结 点 。 


图 提高 是 


Steque。 一 个 以 栈 为 目标 的 队列 (或 称 steque ) ， 是 一 种 支持 push、pop 和 enqueue 操作 的 数 
据 类 型 。 为 这 种 抽象 数据 类 型 定义 一 份 API 并 给 出 一 份 基于 链表 的 实现 。 

Deque。 一 个 双向 队列 ( 或 者 称 为 deque ) 和 栈 或 队列 类 似 , 但 它 同时 支持 在 两 端 添加 或 删除 元 素 。 
Deque 能 够 存储 一 组 元 素 并 支持 表 1.3.9 中 的 API: 


表 1.3.9 泛 型 双向 队列 的 API 
public class Deque<Item> implements Iterable<Item> 
Deque() 创建 空 双向 队列 
boolean isEmpty() 双向 队列 是 否 为 空 


GOD push、pop 都 是 对 队列 同一 端的 操作 ，enqueue 和 push 对 应 ,但 操作 的 是 队列 的 另 一 端 。 一 一 译 者 注 
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中 


public class Deque<Item> implements Iterable<Item> 


int 
void 
void 
Item 
Item 


size() 
pushLeft(Item item) 
pushRight(Item item) 
popLeft() 

popRight() 


双向 队列 中 的 元 素数 量 
向 左 端 添加 一 个 新 元 素 
向 右 端 添加 一 个 新 元 素 
从 左 端 删除 一 个 元 素 
从 右 端 删除 一 个 元 素 


编写 一 个 使 用 双向 链表 实现 这 份 API 的 Deque 类 ， 以 及 一 个 使 用 动态 数组 调整 实现 这 份 API 的 
ResizingArrayDeque 类 。 
1.3.34 ”随机 背包 。 随 机 背包 能 够 存储 一 组 元 素 并 支持 表 1.3.10 中 的 API: 


表 1.3.10 


泛 型 随机 背包 的 API 


public class RandomBag<Item> implements Iterable<Item> 





boolean 
int 


void 


RandomBag() 
isEmpty() 
size() 
add(Item item) 





创建 一 个 空 随机 背包 
背包 是 否 为 空 
背包 中 的 元 素数 量 
添加 一 个 元 素 


编写 一 个 RandomBag 类 来 实现 这 份 API。 请 注意 ， 除 了 形容 词 随机 之 外 ， 这 份 API 和 Bag 的 API 

是 相同 的 ， 这 意味 着 迭代 应 该 随机 访问 背包 中 的 所 有 元 素 ( 对 于 每 次 迭代 ， 所 有 的 NI 种 排列 出 ”|[167 

现 的 可 能 性 均 相 同 ) 。 提示: 用 数组 保存 所 有 元 素 并 在 迭代 器 的 构造 函数 中 随机 打 乱 它们 的 顺序 。 
1.3.35 ”随机 队列 。 随 机 队列 能 够 存储 一 组 元 素 并 支持 表 1.3.11 中 的 API: 


表 1.3.11 


public class RandomQueue<Item> 


boolean 
void 
Item 


Item 


RandomQueue() 
isEmpty() 
enqueue(Item item) 


dequeueQO 
sample() 


泛 型 随机 队列 的 API 


创建 一 条 空 的 随机 队列 

队列 是 否 为 空 

添加 一 个 元 素 

删除 并 随机 返回 一 个 元 素 〈 取样 且 不 放 回 ) 
随机 返回 一 个 元 素 但 不 删除 它 〈 取样 且 放 回 ) 


编写 一 个 RandomQueue 类 来 实现 这 份 API。 提 示 : 使 用 (能 够 动态 调整 大 小 的 ) 数组 表示 
数据 。 删 除 一 个 元 素 时 ， 随 机 交换 某 个 元 素 (索引 在 0 和 N-1 之 间 ) 和 末 位 元 素 ( 索 引 为 
N-1) 的 位 置 ， 然 后 像 ResizingArrayStack 一 样 删 除 并 返回 末 位 元 素 。 编 写 一 个 用 例 ， 使 用 
RandomQueue<Card> 在 桥牌 中 发 牌 (每 人 13 张 ) 。 

1.3.36 ”随机 和 迭代 器 。 为 上 一 题 中 的 RandomQueue<Item> 编写 一 个 迭代 器 ， 随 机 返回 队列 中 的 所 有 元 素 。 

1.3.37 Josephus 问题 。 在 这 个 古老 的 问题 中 ，N 个 身 陷 绝 境 的 人 一 致 同意 通过 以 下 方式 减少 生存 人 
数 。 他 们 围 坐 成 一 圈 (位置 记 为 0 到 NN-1) 并 从 第 一 个 人 开始 报 数 ， 报 到 M 的 人 会 被 杀 死 ， 
直到 最 后 一 个 人 留 下 来 。 传 说 中 Josephus 找到 了 不 会 被 杀 死 的 位 置 。 编 写 一 个 Queue 的 用 例 


Josephus, 从 命令 行 接受 N 和 MM 并 打印 出 人 们 被 杀 死 的 顺序 ( 这 也 将 显示 Josephus 在 圈 中 的 位 置 )。 
% java Josephus 7 2 


1350426 


1.3.38 


1.3.39 


1.3.40 


1.3.41 


1.3.42 


1.3.43 


1.3.44 


删除 第 k 个 元 素 。 实 现 一 个 类 并 支持 表 1.3.12 中 的 API: 


表 1.3.12 泛 型 一 般 队 列 的 API 


public class GeneralizedQueue<Item> 


GeneralizedQueue() 创建 一 条 空 队列 
boolean isEmpty@O) 队列 是 否 为 空 
void insert(Item x) 添加 一 个 元 素 
Item delete(int k) 删除 并 返回 最 早 插入 的 第 k 个 元 素 


首先 用 数组 实现 该 数据 类 型 ， 然 后 用 链表 实现 该 数据 类 型 。 注 意 : 我 们 在 第 3 章 中 介绍 的 算法 
和 数据 结构 可 以 保证 insert() 和 delete() 的 实现 所 需 的 运行 时 间 和 和 队列 中 的 元 素数 量 成 对 
数 关系 一 一 请 见 练习 3.5.27。 

环形 缓冲 区 。 环 形 缓冲 区 ， 又 称 为 环形 队列 ， 是 一 种 定 长 为 Y 的 先进 先 出 的 数据 结构 。 它 在 进 
程 间 的 异步 数据 传输 或 记录 日 志文 件 时 十 分 有 用 。 当 缓冲 区 为 空 时 ， 消 费 者 会 在 数据 存 人 缓冲 
区 前 等 待 ; 当 缓 冲 区 满 时 , 生产 者 会 等 待 将 数据 存 人 缓冲 区 。 为 RingBuffer 设 计 一 份 API 并 用 ( 回 
环 ) 数组 将 其 实现 。 

前 移 编码 。 从 标准 输入 读 取 一 串 字 符 ， 使 用 链表 保存 这 些 字符 并 清除 重复 字符 。 当 你 读 取 了 一 
个 从 未 见 过 的 字符 时 ， 将 它 插入 表 头 。 当 你 读 取 了 一 个 重复 的 字符 时 ， 将 它 从 链表 中 删 去 并 再 
次 插 人 表 头 。 将 你 的 程序 命名 为 MoveToFront: 它 实 现 了 著名 的 前 移 编码 策略 ， 这 种 策略 假设 最 
近 访 问 过 的 元 素 很 可 能 会 再 次 访问 ， 因 此 可 以 用 于 缓存 、 数 据 压 缩 等 许多 场景 。 

复制 队列 。 编 写 一 个 新 的 构造 函数 ， 使 以 下 代码 

Queue<Item> r = new Queue<Item>(q); 

得 到 的 r 指向 队列 q 的 一 个 新 的 独立 的 副本 。 可 以 对 q 或 r 进行 任意 人 列 或 出 列 操作 但 它们 不 
会 相互 影响 。 提 示 : 从 q 中 取出 所 有 元 素 青 将 它们 插入 q 和 r。 

复制 栈 。 为 基于 链表 实现 的 栈 编写 一 个 新 的 构造 函数 ， 使 以 下 代码 

Stack<Item> 七 = new Stack<Item>(s); 

得 到 的 上 指向 栈 s 的 一 个 新 的 独立 的 副本 。 

文件 列表 。 文 件 夹 就 是 一 列 文件 和 文件 夹 的 列表 。 编 写 一 个 程序 ， 从 命令 行 接受 一 个 文件 夹 名 
作为 参数 ， 打 印 出 该 文件 夹 下 的 所 有 文件 并 用 递归 的 方式 在 所 有 子 文件 夹 的 名 下 ( 缩 进 ) 列 出 
其 下 的 所 有 文件 。 提 示 : 使 用 队列 ， 并 参考 java.io.File。 

文本 编辑 器 的 缓冲 区 。 为 文本 编辑 器 的 缓冲 区 设计 一 种 数据 类 型 并 实现 表 1.3.13 中 的 API。 


表 1.3.13 文本 缓冲 区 的 API 


Public class Buffer 


Buffer() 创建 一 块 空 缓冲 区 
void insert(char c) 在 光标 位 置 插入 字符 c 
char delete() 删除 并 返回 光标 位 置 的 字符 
void left(Cint k) 将 光标 向 左 移动 k 个 位 置 
void right(int k) 将 光标 向 右 移动 k 个 位 置 
int size() 缓冲 区 中 的 字符 数量 


提示 : 使 用 两 个 栈 。 


1.3.45 


1.3.46 


1.3.47 


1.3.48 


1.3.49 


1.3.50 
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栈 的 可 生成 性 。 假 设 我 们 的 栈 测 试用 例 将 会 进行 一 系列 混合 的 入 栈 和 出 栈 操作 ， 序 列 中 的 整数 
0,1,………,N-1 ( 按 此 先后 顺序 排列 ) 表示 和 人 栈 操作 ，X 个 减 号 表示 出 栈 操作 。 设 计 一 个 算法 ， 判 
定 给 定 的 混合 序列 是 否 会 使 数组 向 下 溢出 〈 你 所 使 用 的 空间 量 与 无 关 ， 即 不 能 用 某 种 数据 结 
构 存 储 所 有 整数 ) 。 设 计 一 个 线性 时 间 的 算法 判定 我 们 的 测试 用 例 能 否 产 生 某 个 给 定 的 排列 ( 这 
取决 于 出 栈 操作 指令 的 出 现 位 置 ) 。 

解答 : 除非 对 于 某 个 整数 大 ， 前 大 次 出 栈 操作 会 在 前 上 次 入 栈 操 作 前 完成 ， 和 否则 栈 不 会 向 下 溢出 。 
如 果 某 个 排列 可 以 产生 , 那么 它 产 生 的 方式 一 定 是 唯一 的 : 如 果 输 出 排列 中 的 下 一 个 整数 在 栈 项 ， 
则 将 它 弹 出 ， 和 否则 将 它 压 人 栈 之 中 。 

栈 可 生成 性 问题 中 禁止 出 现 的 排列 。 若 三 元 组 (ab,c) 中 a<b<c 且 c 最 先 被 弹出 , a 第 二 , b 第 三 (ce 
和 a 以 及 a 和 b 之 间 可 以 间隔 其 他 整数 ) ， 那 么 当 且 仅 当 排列 中 不 含 这 样 的 三 元 组 时 ( 如 上 题 所 
述 的 ) 栈 才 可 能 生成 它 。 

部 分 解答 : 设 有 一 个 这 样 的 三 元 组 (ab,c)。ce 会 在 a 和 b 之 前 被 弹出 , 但 a 和 b 会 在 c 之 前 被 压 和 人 。 
因此 ， 当 e 被 压 人 时 ，a 和 b 都 已 经 在 栈 之 中 了 。 所 以 ，a 不 可 能 在 b 之 前 被 弹出 。 

可 连接 的 队列 、 栈 或 steque。 为 队列 、 栈 或 steque ( 请 见 练习 1.3.32 ) 添加 一 个 能 够 ( 破坏 性 地 ) 
连接 两 个 同类 对 象 的 额外 操作 catenation。 

双向 队列 与 栈 。 用 一 个 双向 队列 实现 两 个 栈 ， 保 证 每 个 栈 操作 只 需要 常数 次 的 双向 队列 操作 (请 
见 练习 1.3.33 ) 。 

栈 与 队列 。 用 三 个 栈 实 现 一 个 队列 , 保证 每 个 队列 操作 ( 在 最 坏 情况 下 ) 都 只 需要 常数 次 的 栈 操作 。 
警告 非常 难 ! 

快速 出 错 的 迭代 器 。 修改 Stack 的 迭代 器 代码 ， 确 保 一 旦 用 例 在 迭代 器 中 (通过 pushQO， 
或 popQO 操作 ) 修改 集合 数据 就 抛 出 一 个 java.uti1.ConcurrentModificationException 异常 。 
解答 : 用 一 个 计数 器 记录 push() 和 pop0) 操作 的 次 数 。 在 创建 迭代 器 时 ， 将 该 值 记 录 到 
Iterator 的 一 个 实例 变量 中 。 在 每 次 调用 hasNext() 和 next() 之 前 , 检查 该 值 是 否 发 生 了 变化 ， 
如 果 变 化 则 抛 出 异常 。 


108 了 第 1 章 基 础 


1.4 算法 分 析 


随 着 使 用 计算 机 的 经 验 的 增长 ， 人 们 在 使 用 计算 机 解决 困难 问题 或 是 处 理 大 量 数据 时 不 可 避免 

的 将 会 产生 这 样 的 疑问 : 
我 的 程序 会 运行 多 长 时 间 ? 
为 什么 我 的 程序 耗 尽 了 所 有 内 存 ? 

在 重建 某 个 音乐 或 照片 库 、 安 装 某 个 新 应 用 程序 、 编 辑 某 个 大 型 文档 或 是 处 理 一 大 批 实验 数据 
时 ， 你 肯定 也 问 过 自己 这 些 问 题 。 这 些 问 题 太 模糊 了 ,我 们 无 法 准确 回答 一 一 答案 取决 于 许多 因素 ， 
比如 你 所 使 用 的 计算 机 的 性 能 、 被 处 理 的 数据 的 性 质 和 完成 任务 所 使 用 的 程序 (实现 了 某 种 算法 ) 。 
这 些 因素 都 会 产生 大 量 需要 分 析 的 信息 。 

尽管 有 这 些 困难 , 你 在 本 节 中 将 会 看 到 , 为 这 些 基础 问题 给 出 实质 性 的 答案 有 时 其 实 非常 简单 。 
这 个 过 程 的 基础 是 科学 方法 , 它 是 科学 家 们 为 获取 自然 界 知识 所 使 用 的 一 系列 为 大 家 所 认同 的 方法 。 
我 们 将 会 使 用 数学 分 析 为 算法 成 本 建立 简洁 的 模型 并 使 用 实验 数据 验证 这 些 模型 。 


1.4.1 科学 方法 

科学 家 用 来 理解 自然 世界 的 方法 对 于 研究 计算 机 程序 的 运行 时 间 同 样 有 效 : 

口 细致 地 观察 真实 世界 的 特点 ， 通 常 还 要 有 精确 的 测量 ; 

口 根据 观察 结果 提出 假设 模型 ; 

口 根据 模型 预测 未 来 的 事件 ; 

口 继续 观察 并 核实 预测 的 准确 性 ; 

口 如 此 反复 直到 确认 预测 和 观察 一 致 。 

科学 方法 的 一 条 关键 原则 是 我 们 所 设计 的 实验 必须 是 可 重 现 的 ， 这 样 他 人 也 可 以 自己 验证 假设 
的 真实 性 。 所 有 的 假设 也 必须 是 可 证 伪 的 ， 这 样 我 们 才能 确认 某 个 假设 是 错误 的 〈 并 需要 修正 ) 。 
正如 爱 因 斯 坦 的 一 名 名言 所 说 : “再 多 的 实验 也 不 一 定 能 够 证 明 我 是 对 的 ， 但 只 需要 一 个 实验 就 能 
证 明 我 是 错 的 。” 我 们 永远 也 没 法 知道 某 个 假设 是 否 绝对 正确 ,我们 只 能 验证 它 和 我 们 的 观察 的 一 
致 性 。 


1.4.2 ”观察 


我 们 的 第 一 个 挑战 是 决定 如 何 定量 测量 程序 的 运行 时 间 。 在 这 里 这 个 任务 比 自然 科学 中 的 要 简 
单 得 多 。 我 们 不 需要 向 火星 发 射 火箭 或 者 牺牲 一 些 实验 室 的 小 动物 或 是 分 裂 某 个 原子 一 一 只 需要 运 
行程 序 即 可 。 事 实 上 ， 每 次 运行 程序 都 是 在 进行 一 次 科学 实验 ， 将 这 个 程序 和 自然 世界 联系 起 来 并 
回答 我 们 的 一 个 核心 问题 : 我 的 程序 会 运行 多 长 时 间 ? 

我 们 对 大 多 数 程序 的 第 一 个 定量 观察 就 是 计算 性 任务 的 困难 程度 可 以 用 问题 的 规模 来 衡量 。 一 
般 来 说 ， 问 题 的 规模 可 以 是 输入 的 大 小 或 是 某 个 命令 行 参 数 的 值 。 根 据 直 觉 ， 程 序 的 运行 时 间 应 该 
随 着 问题 规模 的 增长 而 变 长 ， 但 我 们 每 次 在 开发 和 运行 一 个 程序 时 想 问 的 问题 都 是 运行 时 间 的 增长 
有 多 快 。 | 

从 许多 程序 中 得 到 的 另 一 个 定量 观察 是 运行 时 间 和 输入 本 身 相 对 无 关 , 它 主要 取决 于 问题 规模 。 
如 果 这 个 关系 不 成 立 ， 我 们 就 需要 进行 一 些 实验 来 更 好 地 理解 并 更 好 地 控制 运行 时 间 对 输入 的 敏感 
度 。 但 这 个 关系 常常 是 成 立 的 ， 因 此 我 们 现在 来 重点 研究 如 何 更 好 地 将 问题 规模 和 运行 时 间 的 关系 
量化 。 


1.4.2.1 举例 

右 侧 的 ThreeSum 程序 是 一 个 可 运行 
的 示例 。 它 会 统计 一 个 文件 中 所 有 和 为 0 
的 三 整数 元 组 的 数量 ( 假设 整数 不 会 溢出 )。 
这 种 计算 可 能 看 起 来 有 些 不 自然 ,但 其 实 
它 和 许多 基础 计算 性 任务 都 有 着 深刻 的 联 
系 ( 例如， 请 见 练习 1.4.26 ) 。 作 为 测试 
输入 ,我 们 使 用 的 是 本 书 网 站 上 的 1Mints. 
txt 文件 。 它 含有 100 万 个 随机 生成 的 int 
值 。1Mints.txt 中 的 第 二 个 、 第 八 个 和 第 
十 个 元 组 的 和 均 为 0。 文件 中 还 有 和 多少 组 
这 样 的 数据 ? ThreeSum 能 够 告诉 我 们 等 
案 , 但 它 所 需 的 时 间 可 以 接受 吗 ? 问题 的 
规模 N 和 ThreeSum 的 运行 时 间 有 什么 关 
系 ? 我 们 的 第 一 个 实验 就 是 在 计算 机 上 运 
行 ThreeSum 并 处 理 本 书 网 站 上 的 1Kints. 
txt、2Kints.txt、4Kints.txt 和 8Kints.txt 文 
件 ， 它 们 分 别 含 有 1Mints.txt 中 的 1000、 
2000、4000 和 8000 个 整数 。 你 可 以 很 快 
得 到 这 样 的 整数 元 组 在 1Kints.txt 中 共有 
70 组 ,在 2Kints.txt 中 共有 528 组 , 如 图 1.4.1 
所 示 。 这 个 程序 需要 用 比 之 前 长 得 多 的 时 
间 得 到 在 4Kints.txt 中 共有 4039 
组 和 为 0 的 整数 。 在 等 待 它 处 


理 8Kints.txt 的 时 候 ， 你 会 发 现 0 
你 在 问 自己 : “我 的 程序 还 要 总 
运行 多 久 ? ”你 会 看 到 ， 对 于 | 
这 个 程序 ， 回 答 这 个 问题 很 简 123414 
单 。 实 际 上 ， 你 常常 能 在 程序 ee 
运行 的 时 候 就 给 出 一 个 较为 准 129801 
确 的 预测 。 287381 
1.4.2.2 计时 器 Es 

准确 测量 给 定 程序 的 确切 ee 
运行 时 间 是 很 困难 的 。 不 过 幸 982455 
运 的 是 我 们 一 般 只 需要 近似 值 2 
就 可 以 了 。 我 们 希望 能 够 把 需 _738817 
要 几 秒 钟 或 者 几 分 钟 就 能 完成 ep 
的 程序 和 需要 几 天 、 几 个 月 其 
至 更 长 时 间 才 能 完成 的 程序 区 


别 开 来 ， 而 且 我 们 希望 知道 对 
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public class ThreeSum 


public static int count(int[] a) 
{ // 统计 和 为 0 的 元 组 的 数量 

int N = a.length; 

了 RE Cnt mii0s 

for (int i = 0; i < Ni i++) 

for Cint' 林寺 1 .< Ns jt+) 
for (Cint k = j+1; k < N; k++) 
if (a[i] + a[j] + a[k] == 0) 


% more 1Mints .txt 


cntre; 


return cnt; 


} 


public static void main(String[] args) 


‘ 


int[] a = In.readInts(args[0]); 
Stdout.print1nCcount(a) ) ; 


} 
} 


对 于 给 定 的 N， 这 段 程序 需要 运行 多 长 时 间 


% java ThreeSum 1Kints .txt 


70 


滴答 滴答 滴答 


% java ThreeSum 2Kints.txt 


528 


4039 


图 1.4.1 


滴答 滴答 滴答 滴答 滴答 滴答 滴答 滴答 
滴答 滴答 滴答 滴答 滴答 滴答 滴答 滴答 
滴答 滴答 滴答 滴答 滴答 滴答 滴答 滴答 


% java ThreeSum 4Kints.txt 


滴答 滴答 滴答 滴答 滴答 滴答 滴答 滴答 
滴答 滴答 滴答 滴答 滴答 滴答 滴答 滴答 
滴答 滴答 滴答 滴答 滴答 滴答 滴答 滴答 
滴答 滴答 滴答 滴答 滴答 滴答 滴答 滴答 
滴答 滴答 滴答 滴答 滴答 滴答 滴答 滴答 
滴答 滴答 滴答 滴答 滴答 滴答 滴答 滴答 
滴答 滴答 滴答 滴答 滴答 滴答 滴答 滴答 
滴答 滴答 滴答 滴答 滴答 滴答 滴答 滴答 
滴答 滴答 滴答 滴答 滴答 滴答 滴答 滴答 
滴答 滴答 滴答 滴答 滴答 滴答 滴答 滴答 
滴答 滴答 滴答 滴答 滴答 滴答 滴答 滴答 
滴答 滴答 滴答 滴答 滴答 滴答 滴答 滴答 
滴答 滴答 滴答 滴答 滴答 滴答 滴答 滴答 
滴答 滴答 滴答 滴答 滴答 滴答 滴答 滴答 
滴答 滴答 滴答 滴答 滴答 滴答 滴答 滴答 
滴答 滴答 滴答 滴答 滴答 滴答 滴答 滴答 
滴答 滴答 滴答 滴答 滴答 滴答 滴答 滴答 
滴答 滴答 滴答 滴答 滴答 滴答 滴答 滴答 
滴答 滴答 滴答 滴答 滴答 滴答 滴答 滴答 
滴答 滴答 滴答 滴答 滴答 滴答 滴答 滴答 
滴答 滴答 滴答 滴答 滴答 滴答 滴答 滴答 
滴答 滴答 滴答 滴答 滴答 滴答 滴答 滴答 
滴答 滴答 滴答 滴答 滴答 滴答 滴答 滴答 
滴答 滴答 滴答 滴答 滴答 滴答 滴答 滴答 


记录 一 个 程序 的 运行 时 间 
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[四 


于 同一 个 任务 某 个 程序 是 不 是 比 另 一 个 程序 快 一 倍 。 因 此 ， 我 们 仍然 需要 准确 的 测量 手段 来 生成 实 
验 数据 , 并 根据 它们 得 出 并 验证 关于 程序 的 运行 时 间 和 问题 规模 的 假设 。 为 此 , 我 们 使 用 了 如 表 1.4.1 
所 示 的 Stopwatch 数据 类 型 。 它 的 elapsedTime(0) 方法 能 够 返回 自 它 创 建 以 来 所 经 过 的 时 间 ， 以 
秒 为 单位 。 它 的 实现 基于 Java 系统 的 currentTimeMi11is() 方法 ， 该 方法 能 够 返回 以 毫秒 记 数 的 
当前 时 间 。 它 在 构造 函数 中 保存 了 当前 时 间 ， 并 在 elapsedTime() 方法 被 调用 时 再 次 调用 该 方法 
来 计算 得 到 对 象 创建 以 来 经 过 的 时 间 。 


表 1.4.1 一 种 表示 计时 器 的 抽象 数据 类 型 
API public class Stopwatch 


Stopwatch 0) 创建 一 个 计时 器 
double elapseTime() 返回 对 象 创建 以 来 所 经 过 的 时 间 
典型 用 例 public static void main(String[] args) 
{ 


int N = Integer.parseInt(args[0]); 
int[] a = new int[N]; 
for (int i = 0; 1 < N; i++) 
a[i] = StdRandom.uniform(-1000000，1000000) ; 
Stopwatch timer = new Stopwatch() ; 
int cnt = ThreeSum.count(a); 
double time = timer.elapsedTime(); 
StdOut.printin(cnt + "triples" + time + "seconds"); 


使 用 方法 % java Stopwatch 1000 
51 triples 0.488 seconds 
% java Stopwatch 2000 
516 triples 3.855 seconds 


数据 类 型 的 实现 public class Stopwatch 
中 
private final long start; 
public Stopwatch() 
{ start = System.currentTimeMi11is(); } 
public double elapsedTime() 
E 
long now = System.currentTimeMil11is(); 
return (now - start) / 1000.0; 
上 
} 


1.4.2.3 ”实验 数据 的 分 析 

DoublingTest 是 Stopwatch 的 一 个 更 加 复杂 的 用 例 ， 并 能 够 为 ThreeSum 产生 实验 数据 。 它 会 生 
成 一 系列 随机 输入 数组 ， 在 每 一 步 中 将 数组 长 度 加 倍 ， 并 打印 出 ThreeSum.count() 处 理 每 种 输入 规 
模 所 需 的 运行 时 间 。 这些 实 验 显然 是 可 重 现 的 一 一 你 也 可 以 在 自己 的 计算 机 上 运行 它们 , 多 少 次 都 行 。 
在 运行 DoublingTest 时 ， 你 会 发 现 自己 进入 了 一 个 “预测 一 验证 ”的 循环 : 它 会 快速 打印 出 几 行 数据 ， 
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但 随即 慢 了 下 来 。 每 当 它 打印 出 一 行 结果 时 ， 你 都 会 开始 琢磨 它 还 需要 多 久 才能 打出 下 一 行 。 当 然 ， 
因为 大 家 使 用 的 计算 机 不 同 ， 你 得 到 的 实际 运行 时 间 很 可 能 和 我 们 的 计算 机 得 到 的 不 一 样 。 事 实 上 ， 
如 果 你 的 计算 机 比 我 们 的 快 一 倍 ， 你 所 得 到 的 运行 时 间 应 该 大 致 是 我 们 所 得 到 的 一 半 。 由 此 我 们 马上 
可 以 得 出 一 条 有 说 服 力 的 猜想 : 程序 在 不 同 的 计算 机 上 的 运行 时 间 之 比 通常 是 一 个 常数 。 尽 管 如 此 ， 
你 还 是 会 提出 更 详细 的 问题 : 作为 问题 规模 的 一 个 函数 ， 我 的 程序 的 运行 时 间 是 多 和 久 ? 为 了 帮助 你 回 
答 这 个 问题 ， 我 们 来 将 数据 绘制 成 图 表 。 图 1.4.2 就 是 产生 结果 ， 使 用 的 分 别 是 标准 比例 尺 和 对 数 比 
例 尺 。 其 中 x 轴 表 示 N,，y 轴 表 示 程 序 的 运行 时 间 TOV)。 由 对 数 的 图 像 我 们 立即 可 以 得 到 一 个 关于 运 
行 时 间 的 猜想 一 一 因为 数据 和 和 斜率 为 3 的 直线 完全 吻合 。 该 直线 的 公式 为 ( 其 中 a 为 常数 ) : 
lg(T(N))= 3 lgN + lga 
它 等 价 于 : 
T(N) =aN 

这 就 是 我 们 想 要 的 运行 时 间 关 于 输入 规模 X 的 函数 。 我 们 可 以 用 其 中 一 个 数据 点 来 解 出 a 的 
值 一 一 例如 ，7T(8000)= a8000*， 可 得 a = 9.98 x 10 "一 一 因此 我 们 就 可 以 用 以 下 公式 预测 值 较 大 
时 程序 的 运行 时 间 : 

T(N)= 9.98 x 10 NW 

我 们 可 以 根据 对 数 图 像 中 的 数据 点 距离 这 条 直线 的 远近 来 不 严格 地 检验 这 条 假设 。 一 些 统计 学 
方法 可 以 帮助 我 们 更 加 仔细 地 分 析出 a 和 指数 b 的 近似 值 ， 但 我 们 的 快速 计算 已 经 足以 在 大 多 数 情 
况 下 估计 出 程序 的 运行 时 间 。 例 如 ， 我 们 预计 ， 在 我 们 的 计算 机 上 ， 当 N=16000 时 程序 的 运行 时 间 
约 为 9.98 x 10… x 16000:=408.8 秒 ， 也 就 是 约 6.8 分 钟 (实际 时 间 为 409.3 秒 ) 。 在 等 待 计算 机 得 出 
DoublingTest 在 N=16000 的 实验 数据 时 ， 也 可 以 用 这 个 方法 来 预测 它 何 时 将 会 结束 ， 然 后 等 待 并 验 
证 你 的 结果 是 否 正确 。 


实验 程序 实验 结果 

public class DoublingTest % java DoublingTest 

{ 250 0.0 

public static double timeTrial(int N) 500 0.0 

{ // 为 处 理 N 个 随机 的 六 位 整数 的 ThreeSum.count() 计时 1000 041 

int MAX = 1000000; 2000 0.8 

int[] a = new int[N]; 4000 6.4 

二 


for Cint 1= 0;) i < Ni i++) 8000 
a[i] = StdRandom.uniform(-MAX, MAX); 
Stopwatch timer = new Stopwatch(); 
int cnt = ThreeSum.count(a); 
return timer.elapsedTime(); 
} 
public static void main(String[] args) 
{ // 打印 运行 时 间 的 表格 
for Cint N = 250; true; N += N) 
{ // 打印 问题 规模 为 N 时 程序 的 用 时 
double time = timeTrialCN) ; 
StdOut.printf("%7d %5.1f\n", N, time); 
} 
下 
} 
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图 1.4.2 ”实验 数据 (ThreeSum.count() 的 运行 时 间 ) 的 分 析 


到 现在 为 止 ， 这 个 过 程 和 科学 家 们 在 尝试 理解 真实 世界 的 奥秘 时 进行 的 过 程 完 全 相同 。 对 数 图 
像 中 的 直线 等 价 于 我 们 对 数据 符合 公式 TUN)=aN'" 的 猜想 。 这 种 公式 被 称 为 昧 次 法 则 。 许 多 自然 和 
人 工 的 现象 都 符合 蝴 次 法 则 ， 因 此 假设 程序 的 运行 时 间 符 合 寡 次 法 则 也 是 合情合理 的 。 事 实 上 ， 对 
于 算法 的 分 析 , 我 们 有 许多 数学 模型 强烈 支持 这 种 函数 和 其 他 类 似 的 假设 , 我 们 现在 就 来 学 习 它们 。 


1.4.3 ”数学 模型 

在 计算 机 科学 的 早期 ，D. E. Knuth 认为 ， 尽管 有 许多 复杂 的 因素 影响 着 我 们 对 程序 的 运行 时 间 
的 理解 ， 原 则 上 我 们 仍然 可 能 构造 出 一 个 数学 模型 来 描述 任意 程序 的 运行 时 间 。Knuth 的 基本 见地 
很 简单 一 一 一 个 程序 运行 的 总 时 间 主 要 和 两 点 有 关 : 

口 执行 每 条 语句 的 耗 时 ; 

口 执行 每 条 语句 的 频率 。 

前 者 取决 于 计算 机 、Java 编译 器 和 操作 系统 ， 后 者 取决 于 程序 本 身 和 输入 。 如 果 对 于 程序 的 所 
有 部 分 我 们 都 知道 了 这 些 性 质 ， 可 以 将 它们 相 乘 并 将 程序 中 所 有 指令 的 成 本 相 加 得 到 总 运行 时 间 。 

第 一 个 挑战 是 判定 语句 的 执行 频率 。 有 些 语句 的 分 析 很 容易 : 例如 ，ThreeSum.count() 中 将 
cnt 的 值 设 为 0 的 语句 只 会 执行 一 次 。 有 些 则 需要 深入 分 析 : 例如 ，ThreeSum.count() 中 的 if 
语句 会 执行 MN_1)(N_2)/6 次 ( 从 输入 数组 中 能 够 取得 的 三 个 不 同 整数 的 数量 一 一 请 见 练习 1.4.1 ) 。 
其 他 则 取决 于 输入 数据 ， 例 如 ，ThreeSum.count() 中 的 指令 cnt++ 执行 的 次 数 为 输入 中 和 为 0 的 
整数 三 元 组 的 数量 ， 这 可 能 是 0 也 可 能 是 任意 值 。 对 于 DoublingTest 的 情况 ， 输 入 值 是 随机 产生 的 ， 
我 们 可 以 用 概率 分 析 得 到 该 值 的 期 望 (请 见 练习 1.4.40 ) 。 
1.4.3.1 近似 

这 种 频率 分 析 可 能 会 产生 复杂 宛 长 的 数学 表达 式 。 例 如 ， 刚 才 我 们 所 讨论 的 ThreeSum 中 的 if 
语句 的 执行 次 数 为 : 





N(N-_1)(N-2)6=N’/6—N®Y/2+N/3 
一 般 在 这 种 表达 式 中 ， 首 项 之 后 的 其 他 项 都 相对 较 小 (例如 ， 当 N=1000 时 ，-Ny2+M3 = 499 667， 


相对 于 Ne/6 = 166 666 667 就 小 得 多 了 ) ， 如 图 1.4.3 所 示 。 我 们 常常 使 用 约 等 于 号 (~ ) 来 忽略 
较 小 的 项 ， 从 而 大 大 简化 我 们 所 处 理 的 数学 公式 。 该 符号 使 我 们 能 够 用 近似 的 方式 忽略 公式 中 那 
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些 非 常 复杂 但 寡 次 较 低 ， 且 对 最 终结 果 的 贡献 无 关 紧要 的 项 : 


定义 。 我 们 用 ~fN) 表示 所 有 随 着 入 的 增 大 除 以 AN) 的 结果 趋 近 于 1 的 函数 。 我 们 用 g(N) ~ 


AN) 表示 ge(N)/NN) 随 着 V 的 增 大 趋 近 于 1。 


例如 ， 我 们 用 ~N/6 表示 ThreeSum 中 的 
话语 句 的 执行 次 数 ， 因 为 W/6-NV2+M3 除 
以 NV6 的 结果 随 着 N 的 增 大 趋向 于 1。 一 般 
我 们 用 到 的 近似 方式 都 是 g(N) ~ afN)， 其 中 
AN)=Nr(logN)， 其 中 a、b 和 c 均 为 常数 。 我 
们 将 有 N) 称 为 e(N) 的 增长 的 数量 级 ( 如 表 1.4.2 
所 示 ) 。 我 们 一 般 不 会 指定 底数 ， 因 为 常数 a 
能 够 弥补 这 些 细节 。 这 种 形式 的 函数 覆盖 了 我 
们 在 对 程序 运行 时 间 的 研究 中 经 常 遇 到 的 几 
种 函数 ,如 表 1.4.3 所 示 ( 指数 级 别 是 一 个 例外 ， 
我 们 会 在 第 6 章 中 讲 到 ) 。 我 们 会 详细 说 明 这 
几 种 函数 并 在 处 理 完 ThreeSum 之 后 简要 讨论 
为 什么 它们 会 出 现在 算法 分 析 领 域 之 中 。 
1.4.3.2 ”近似 运行 时 间 

按照 Knuth 的 方法 ， 要 得 到 一 个 Java 程 
序 的 总 运行 时 间 的 数学 表达 式 ，( 原则 上 ) 
我 们 需要 研究 我 们 的 Java 编译 器 来 找 出 每 条 
Java 指令 所 对 应 的 机 器 指令 数 ， 并 根据 我 们 
的 计算 机 的 指令 规范 得 到 每 条 机 器 指令 的 运 
行 时 间 ， 然 后 才能 得 到 一 个 总 运行 时 间 。 对 于 
ThreeSum， 这 个 时 间 的 大 致 总 结 如 图 1.4.4 所 
示 。 我 们 根据 执行 的 频率 将 Java 的 语句 分 块 ， 
计算 出 每 种 频率 的 首 项 近似 ， 判 定 每 条 指令 的 
执行 成 本 并 计算 出 总 和 。 请 注意 ， 某 些 执行 频 
率 可 能 会 依赖 于 输入 。 在 本 例 中 ，cnt++ 的 执 
行 次 数 显 然 就 是 依赖 于 输入 的 一 一 它 就 是 和 


NV6N 









166 666 667 N(N-1)(N-2)/6 


166 167 000 


二 一 一 一 一 一 一 一 


1 000 


图 1.4.3 首 项 近似 


表 1.4.2 典型 的 近似 


数 近 似 增长 的 数量 级 
N3/6-N2/2+M/3 ~N3/6 N’ 
NY2—N/2 ~N2/2 N? 区 
~lgN lgN 


~3 1 


表 1.4.3 常见 的 增长 数量 级 函数 





增长 的 数量 级 

描 述 函 数 
常数 级 别 1 
对 数 级 别 logN 
线性 级 别 N 
线性 对 数 级 别 NlogN 
平方 级 别 N? 
立方 级 别 N3 
指数 级 别 2 


为 0 的 整数 三 元 组 的 数量 ， 范 围 在 0 到 ~ N /6 之 间 。 通 过 用 常数 4、t1、b… 表 示 各 个 代码 块 的 执行 
时 间 ， 我 们 假设 每 个 Java 代码 块 所 对 应 的 机 器 指令 集 所 需 的 执行 时 间 都 是 固定 的 。 除 此 之 外 ,我们 
基本 不 会 涉及 任何 特定 系统 的 细节 ( 这 些 常数 的 值 ) 。 从 这 里 我 们 观察 到 的 一 个 关键 现象 是 执行 最 
频繁 的 指令 决定 了 程序 执行 的 总 时 间 一 一 我 们 将 这 些 指令 称 为 程序 的 内 循环 。 对 于 ThreeSum 来 说 ， 
它 的 内 循环 是 将 k 加 1、 判断 它 是 否 小 于 N 以 及 判断 给 定 的 三 个 整数 之 和 是 否 为 0 的 语句 (也许 还 
包括 记 数 的 语句 ， 不 过 这 取决 于 输入 ) 。 这 种 情况 是 很 典型 的 : 许多 程序 的 运行 时 间 都 只 取决 于 其 


中 的 一 小 部 分 指令 。 
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1.4.3.3 ”对 增长 数量 级 的 猜想 
总 之 ，1.4.2.3 节 中 的 实验 和 表 1.4.4 中 的 数学 模型 都 支持 以 下 猜想 : 


性 质 A。ThreeSum (在 入 个 数 中 找 出 三 个 和 为 0 的 整数 元 组 的 数量 ) 的 运行 时 间 的 增长 数量 级 
为 N 。 


例证 。 设 TOV) 为 ThreeSum 处 理 W 个 整数 的 运行 时 间 。 根 据 前 文 所 述 的 数学 模型 有 TUV) ~ 
aN ， 其 中 常数 a 取决 于 计算 机 的 具体 型 号 。 在 许多 计算 机 上 完成 的 实验 (包括 你 我 的 计算 机 ) 
都 验证 了 这 个 近似 。 


在 本 书 中 ， 我 们 使 用 性 质 表 示 需 要 用 实验 验证 的 猜想 。 数 学 分 析 的 最 终结 果 和 我 们 的 实验 分 析 
的 最 终结 果 完 全 相同 ThreeSum 的 运行 时 间 是 ~ aN”， 其 中 常数 a 取决 于 计算 机 的 具体 型 号 。 这 
180| 次 吻合 既 验 证 了 实验 结果 和 数学 模型 ， 也 揭示 了 该 程序 的 更 多 性 质 ， 因 为 我 们 不 需要 实验 就 能 确定 
NN 的 指数 。 稍 加 努力 ， 我 们 就 能 确定 某 个 特定 系统 上 的 a 的 值 ， 不 过 这 一 般 都 只 在 有 性 能 压力 的 情 
形 下 才 需 要 由 专家 来 完成 。 


public class ThreeSum 





public static int count(int[] a) 


A——>iint N = a. length; 


[lint cnt = 0; 












For (Cint 1 = 0;|i < N: 7++|) | 二 一 
i B 让 Pe nt \ 一 -一 N 执 
骨 C 一 一 For (int k -一 -NY2 频 
块 D if (Ca[i] + a[j] + a[k] == 9| 一 ~NY6 率 
E + Cnt++; Ht 小 
(return ent: ee 
于 ES 
public static void main(String[] args) 
{ 内 循环 
int[] a = En,readIints(args[0l}: 
StdOut.printin(count(a}))}; 
} 
} 
图 1.4.4 程序 语句 执行 频率 的 分 析 
表 1.4.4 程序 运行 时 间 的 分 析 〈 示 例 ) 
语 句 块 运行 时 间 (以 秒 记 ) 频 率 总 时 间 
E to Xx (取决 于 输入 ) lox 
D 六 N36 — NY2 + N/3 1 (N36 — N’/2 + N/3) 
让 洲 NY/2—N/2 b(NY2 - N/2) 
B 六 N aN 
A th 1 ta 
(1/6) NM; 
i + (b/2— 1/2) N? 
总 时 间 +(t/3=—6/2+6)N 
寸 几 帝 沪 区 
近似 ~(16) NM (假设 x 很 小 ) 
181 增长 的 数量 级 N’ 
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1.4.3.4 ”算法 的 分 析 
类 似 于 性 质 A 的 猜想 的 意义 很 重要 ， 因 为 它们 将 抽象 世界 中 的 一 个 Java 程序 和 真实 世界 中 
运行 它 的 一 台 计 算 机 联系 了 起 来 。 增 长 数量 级 概念 的 应 用 使 我 们 能 够 继续 向 前 迈进 一 步 : 将 程 
序 和 它 实 现 的 算法 隔离 开 来 。ThreeSum 的 运行 时 间 的 增长 数量 级 是 R， 这 与 它 是 由 Java 实现 
或 是 它 运 行 在 你 的 笔记 本 电脑 上 或 是 某 人 的 手机 上 或 是 一 台 超级 计算 机 上 无 关 。 决 定 这 一 点 的 
主要 因素 是 它 需 要 检查 输入 中 任意 三 个 整数 的 所 有 可 能 组 合 。 你 所 使 用 的 算法 ( 有 时 还 要 算 上 
输入 模型 ) 决 定 了 增长 的 数量 级 ,将 算法 和 某 台 计算 机 上 的 具体 实现 分 离开 来 是 一 个 强大 的 概念 ， 
因为 这 使 我 们 对 算法 性 能 的 知识 可 以 应 用 于 任何 计算 机 。 例 如 ， 我 们 可 以 说 ThreeSum 是 暴力 算 
法 “计算 所 有 不 同 的 整数 三 元 组 的 和 ， 统 计 和 为 0 的 组 数 ” 的 一 种 实现 ， 可 以 预料 的 是 在 任何 
计算 机 上 使 用 任何 语言 对 该 算法 的 实现 所 需 的 运行 时 间 都 是 和 A 成 正比 的 。 实 际 上 ， 经 典 算法 
的 性 能 理论 大 部 分 都 发 表 于 数 十 年 前 ， 但 它们 仍然 适用 于 今天 的 计算 机 。 
1.4.3.5 成 本 模型 
我 们 使 用 了 一 个 成 本 模型 来 评估 算法 的 性 质 。 
这 个 模型 定义 了 我 们 所 研究 的 算法 中 的 基本 操作 。 3-sum 的 成 本 模型 。 在 研究 解决 
例如 ， 适 合 于 右 侧 所 示 的 3-sum 问题 的 成 本 模型 是 3-sum 问题 的 算法 时 ， 我 们 记录 的 
我 们 访问 数组 元 素 的 次 数 。 是 数组 的 访问 次 数 (访问 数组 元 素 
在 这 个 成 本 模型 之 下 ,我 们 可 以 用 精确 的 数学 的 次 数 ， 无 论 读 写 ) 。 
语言 说 明 算法 而 非 某 个 特定 实现 的 性 质 ， 如 下 : 


命题 B。3-sum 的 暴力 算法 使 用 了 ~ N22 次 数组 访问 来 计算 NN 个 整数 中 和 为 0 的 整数 三 元 组 
的 数量 。 : 


证 明 。 该 算法 访问 了 ~ /6 个 整数 三 元 组 中 的 所 有 3 个 整数 。 


我 们 使 用 术语 命题 来 表示 在 某 个 成 本 模型 下 算法 的 数学 性 质 。 在 全 书 中 我 们 都 会 使 用 某 个 
确定 的 成 本 模型 研究 所 讨论 的 算法 。 我 们 希望 通过 明确 成 本 模型 使 给 定 实 现 所 需 的 运行 时 间 的 
增长 数量 级 和 它 背 后 的 算法 的 成 本 的 增长 数量 级 相同 ( 换 句 话说 ,成 本 模型 应 该 和 内 循环 中 的 
操作 相关 ) 。 我 们 会 研究 算法 准确 的 数学 性 质 (命题 ) 并 对 实现 的 性 能 作出 猜想 (性 质 ) ， 可 
以 通过 实验 验证 这 些 猜 想 。 在 本 例 中 ， 命 题 B 的 数学 结论 支持 了 性 质 A 中 由 科学 方法 得 到 并 由 
实验 验证 过 的 猜想 。 
1.4.3.6 总结 

对 于 大 多 数 程序 ， 得 到 其 运行 时 间 的 数学 模型 所 需 的 步骤 如 下 : 

口 确定 输入 模型 ， 定 义 问题 的 规模 ; 

口 识别 内 循环 ; 

口 根据 内 循环 中 的 操作 确定 成 本 模型 ; 

口 对 于 给 定 的 输入 ， 判 断 这 些 操作 的 执行 频率 。 这 可 能 需要 进行 数学 分 析 一 一 我 们 在 本 书 

中 会 在 学 习 具 体 的 算法 时 给 出 一 些 例子 。 

如 果 一 个 程序 含有 多 个 方法 ,我 们 一 般 会 分 别 讨论 它们 ， 例 如 我 们 在 1.1 节 中 见 过 的 示例 程 
序 BinarySearch。 

二 分 查找 。 它 的 输入 模型 是 大 小 为 的 数组 a[] ， 内 循环 是 一 个 while 循环 中 的 所 有 语句 ， 
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成 本 模型 是 比较 操作 ( 比较 两 个 数组 元 素 的 值 ) 。3.1 节 中 详细 完整 地 给 出 了 1.1 节 中 所 讨论 过 的 命 
题 B 的 证 明 ， 该 命题 说 明 它 所 需 的 比较 次 数 最 多 为 lgN+1。 

白 名 单 。 它 的 输入 模型 是 白 名 单 的 大 小 Y 和 由 标准 输入 得 到 的 M 个 整数 ， 且 我 们 假设 M>>N， 
内 循环 是 一 个 while 循环 中 的 所 有 语句 ， 成 本 模型 是 比较 操作 ( 承 自 二 分 查找 ) 。 由 二 分 查找 的 分 
析 我 们 可 以 立即 得 到 对 白 名 单 问题 的 分 析 一 一 比较 次 数 最 多 为 M(lgN+1)。 

根据 以 下 因素 我 们 可 以 知道 ， 白 名 单 问 题 计算 所 需 时 间 的 增长 数量 级 最 多 为 MlgN: 

口 如 果 N 很 小, 输入 一 输出 可 能 会 成 为 主要 成 本 。 

口 比较 的 次 数 取 决 于 输入 一 一 在 ~ M 和 ~ MigN 之 间 ， 取 决 于 标准 输入 中 有 和 多少 个 整数 在 白 名 
单 中 以 及 二 分 查找 需要 多 久 才 能 找 出 它们 (一般 来 说 为 ~ MlgN ) 。 

口 我 们 假设 Arrays.sort() 的 成 本 远 小 于 MlgN。Arrays.sort() 使 用 的 是 2.2 节 中 的 归并 
排序 算法 。 我们 会 看 到 归并 排序 的 运行 时 间 的 增长 数量 级 为 NogN ( 请 见 第 2 章 的 命题 G ) ， 
因此 这 个 假设 是 合理 的 。 

因此 ， 该 模型 支持 了 我 们 在 1.1 节 中 作出 的 假设 ， 即 当 M 和 NN 很 大 时 二 分 查找 算法 也 能 够 完 
计算 。 如 果 我 们 将 标准 输入 流 的 长 度 加 倍 ， 可 以 预计 的 是 运行 时 间 也 将 加 倍 ; 如 果 我 们 将 白 名 单 的 
大 小 加 倍 ， 可 以 预计 的 是 运行 时 间 只 会 和 消 有 增加 。 

在 算法 分 析 中 进行 数学 建 模 是 一 个 多 产 的 研究 领域 ， 但 它 多 少 超出 了 本 书 的 范畴 。 通 过 二 分 查 
找 、 归 并 排序 和 其 他 许多 算法 你 仍 会 看 到 ， 理 解 特定 的 数学 模型 对 于 理解 基础 算法 的 运行 效率 是 很 
关键 的 ， 因 此 我 们 常常 会 详细 地 证 明 它 们 或 是 引用 经 典 研究 中 的 结论 。 在 其 中 ， 我 们 会 遇 到 各 种 数 
学 分 析 中 广泛 使 用 的 函数 和 近似 函数 。 作 为 参考 ， 我 们 分 别 在 表 1.4.5 和 表 1.4.6 中 对 它们 的 部 分 信 
息 进行 了 总 结 。 


表 1.4.5 算法 分 析 中 的 常见 函数 





描 述 记 号 定 义 
向 下 取 整 (floor ) Lx 不 大 于 x 的 最 大 整数 
向 上 取 整 (ceiling ) Lx] 不 小 于 x 的 最 小 整数 
自然 对 数 InN logeN(e=N) 

以 2 为 底 的 对 数 lgN logN(2=N) 
调和 级 数 上 同 1+1/2+1/3+1/4+.…+1/N 
阶乘 N! 1x2x3x4x…xN 


表 1.4.6 算法 分 析 中 常用 的 近似 函数 





描 述 近似 函数 
调和 级 数 求 和 Hv=1+1/2+1/3+1/4+…+1/N ~ lnN 
等 差 数 列 求 和 1+2+3+4+…+N ~ NY2 
等 比 数列 求 和 1+2+4+8+…+N=2N-1 ~ 2N， 其 中 N=2” 
斯 特 灵 公 式 lgNVI=1g1+1lg2+1g3+1g4+…+lgN ~ NlgN 
N 
二 项 式 系 数 [ 拉 =n, 其 中 为 小 党 数 
指数 函数 (1-1/xy ~ l/e 
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1.4.4 增长 数量 级 的 分 类 

我 们 在 实现 算法 时 使 用 了 几 种 结构 性 的 原 语 (普通 语句 、 条 件 语句 、 循 环 、 肉 套 语句 和 方法 调 
用 ) ， 所 以 成 本 增长 的 数量 级 一 般 都 是 问题 规模 N 的 若干 函数 之 一 。 表 1.4.7 总 结 了 这 些 函 数 以 及 
它们 的 称谓 、 与 之 对 应 的 典型 代码 以 及 一 些 例子 。 


表 1.4.7 对 增长 数量 级 的 常见 假设 的 总 结 











描 述 增长 的 数量 级 典型 的 代码 说 明 举 例 
常数 级 别 1 a=b+ci 普通 语句 将 两 个 数 相 加 
对 数 级 别 logN (请 见 1.1.10.2 节 ， 二 分 查找 ) 二 分 策略 ”二 分 查找 

double max = a[0]; 
线性 级 别 N for Cnt 4 = lr TT < Ny TF) 循环 找 出 最 大 元 素 
if (a[i] > max) max = a[i]i; 
线性 对 数 级 别 “NlogN [请 见 算法 2.4] 分 治 归并 排序 
for Cint 1 = 0; i 过 N; i++) 
平方 级 别 护 ”- eh 双 层 循环 检查 所 有 元 素 对 
cnt++; 


for (Cint i1 = 0; 1 < N; i++) 
for (Cint j = i+l; j < N; j++) 


立方 级 别 N’ for Cint k = j+l; k < Ni k++) 三 层 循环 ”检查 所 有 三 元 组 
if (a[i] + a[j] + a[k] == 0) 
Cnt++; 
ss (请 见 第 6 章 ) 穷 举 查找 。 检查 所 有 子 集 


1.4.4.1 常数 级 别 

运行 时 间 的 增长 数量 级 为 常数 的 程序 完成 它 的 任务 所 需 的 操作 次 数 一 定 ， 因 此 它 的 运行 时 间 不 
依赖 于 N。 大 多 数 的 Java 操作 所 需 的 时 间 均 为 常数 。 
1.4.4.2 ”对 数 级 别 

运行 时 间 的 增长 数量 级 为 对 数 的 程序 仅 比 常 数 时 间 的 程序 稍 慢 。 运 行 时 间 和 问题 规模 成 对 数 关 
系 的 程序 的 经 典 例子 就 是 二 分 查找 (请 见 1.1.10.2 节 的 BinarySearch ) 。 对 数 的 底数 和 增长 的 数量 
级 无 关 ( 因为 不 同 的 底数 仅 相 当 于 一 个 常数 因子 ) ， 所 以 我 们 在 说 明 对 数 级 别 时 一 般 使 用 logN。 
1.4.4.3 ”线性 级 别 

使 用 常数 时 间 人 处理 输入 数据 中 的 所 有 元 素 或 是 基于 单个 for 循环 的 程序 是 十 分 常见 的 。 此 类 程 
序 的 增长 数量 级 是 线性 的 一 一 它 的 运行 时 间 入 成 正比 。 
1.4.4.4 ”线性 对 数 级 别 

我 们 用 线性 对 数 描 述 运 行 时 间 和 问题 规模 N 的 关系 为 MogX 的 程序 。 和 之 前 一 样 ， 对 数 的 底数 
和 增长 的 数量 级 无 关 。 线 性 对 数 算法 的 典型 例子 是 Merge.sort( 请 见 算法 2.4) 和 Quick.sortQO( 请 
见 算法 2.5 ) 。 
1.4.4.5 ”平方 级 别 

一 个 运行 时 间 的 增长 数量 级 为 N 的 程序 一 般 都 含有 两 个 垦 套 的 for 循环 ， 对 由 N 个 元 素 得 到 
的 所 有 元 素 对 进行 计算 。 初 级 排序 算法 Selection.sort() (请 见 算 法 2.1) 和 Insertion.sort() 

( 请 见 算法 2.2 ) 都 是 这 种 类 型 的 典型 程序 。 
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1.4.4.6 ”立方 级 别 


一 个 运行 时 间 的 增长 数量 级 为 N 的 程序 一 般 都 含有 三 个 嵌 套 的 for 循环 ， 对 由 NN 个 元 素 得 
到 的 所 有 三 元 组 进行 计算 。 本 节 中 的 ThreeSum 就 是 一 个 典型 的 例子 。 


1.4.4.7 ”指数 级 别 


在 第 6 章 中 (也 只 会 在 第 6 章 ) 我 们 将 会 遇 到 运行 时 间 和 2” 或 者 更 高 级 别 的 函数 成 正比 的 
程序 。 一 般 我 们 会 使 用 指数 级 别 来 描述 增长 数量 级 为 b 的 算法 ， 其 中 b>1 且 为 常数 ， 尽 管 不 同 


的 b 值得 到 的 运行 时 间 可 能 完全 不 同 。 指 数 级 别 的 算法 非常 慢 


问题 。 但 指数 级 别 的 算法 仍然 在 算法 理论 
中 有 着 重要 的 地 位 ， 因 为 它们 看 起 来 仍然 
是 解决 许多 问题 的 最 佳 方案 。 

以 上 是 最 常见 分 类 ， 但 肯定 不 是 最 全 
面 的 。 算 法 的 增长 数量 级 可 能 是 NlogX 
或 者 N ”或 者 是 其 他 类 似 的 函数 。 实际 上 ， 
详细 的 算法 分 析 可 能 会 用 到 若干 个 世纪 以 
来 发 明 的 各 种 数学 工具 。 

我 们 所 学 习 的 一 大 部 分 算法 的 性 能 特 
点 都 很 简单 ， 可 以 使 用 我 们 所 讨论 过 的 某 
种 增长 数量 级 函数 精确 地 描述 。 因 此 ， 我 
们 可 以 在 某 个 成 本 模型 下 提出 十 分 准确 的 
命题 。 例 如 ， 归 并 排序 所 需 的 比较 次 数 在 
1/2NlgN 到 NlgN 之 间 ， 由 此 我 们 立即 可 
知 归 并 排序 所 需 的 运行 时 间 的 增长 数量 级 
是 线性 对 数 的 。 简 单 起 见 ， 我 们 将 这 句 话 
简写 为 归并 排序 是 线性 对 数 的 。 

图 1.4.5 显示 了 增长 数量 级 函数 在 实 
际 应 用 中 的 重要 性 。 其 中 x 轴 为 问题 规模 ， 
y 轴 为 运行 时 间 。 这 些 图 表 清 晰 的 说 明了 
平方 级 别 和 立方 级 别 的 算法 对 于 大 规模 的 
问题 是 不 可 用 的 。 许 多 重要 的 问题 的 直观 
解法 是 平方 级 别 的 ， 但 我 们 也 发 现 了 它们 
的 线性 对 数 级 别 的 算法 。 此 类 算法 (包括 
归并 排序 ) 在 实践 中 非常 重要 ， 因 为 它们 
能 够 解决 的 问题 规模 远大 于 平方 级 别 的 解 
法 能 够 处 理 的 规模 。 因 此 ， 在 本 书 中 我 们 
自然 希望 为 各 种 基础 问题 找到 对 数 级 别 、 
线性 级 别 或 是 线性 对 数 级 别 的 算法 。 


1.4.5 ”设计 更 快 的 算法 
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图 1.4.5 典型 的 增长 数量 级 函数 


学 习 程序 的 增长 数量 级 的 一 个 重要 动力 是 为 了 帮助 我 们 为 同一 个 问题 设计 更 快 的 算法 。 为 
了 说 明 这 一 点 ,我 们 下 面 来 讨论 一 个 解决 3-sum 问题 的 更 快 的 算法 。 我 们 甚至 还 没有 开始 学 习 
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算法 ， 怎 么 知道 如 何 设 计 一 个 更 快 的 算法 呢 ? 这 个 问题 的 答案 是 ， 我 们 已 经 讨论 并 使 用 过 两 个 经 典 
的 算法 ， 即 归并 排序 和 二 分 查找 。 也 知道 归并 排序 是 线性 对 数 级 别 的 ， 二 分 查找 是 对 数 级 别 的 。 如 
何 利用 它们 解决 3-sum 问题 呢 ? 
1.4.5.1 热身 运动 2-sum 

我 们 先 来 考虑 这 个 问题 的 简化 版 本 ， 即 找 出 一 个 输入 文件 中 所 有 和 为 0 的 整数 对 的 数量 。 简 
单 起 见 ， 我 们 还 假设 所 有 整数 均 各 不 相同 。 这 个 问题 很 容易 在 平方 级 别 解决 ， 只 需 将 ThreeSum. 
count() 中 关于 k 的 循环 和 a[k] 去 掉 即 可 得 到 一 个 双 层 循环 来 检查 所 有 的 整数 对 ， 如 表 1.4.7 中 的 
平方 级 别 条 目 所 示 (我 们 将 这 个 实现 称 为 TwoSum ) 。 下 面 这 个 实现 显示 了 归并 排序 和 二 分 查找 是 
如 何在 线性 对 数 级 别 解决 2-sum 问题 的 。 改 进 后 的 算法 的 思想 是 当 且 仅 当 -a[i] 存在 于 数组 中 ( 且 
a[i] 非 零 ) 时 ,a[i] 存在 于 某 个 和 为 0 的 整数 对 之 中 。 要 解决 这 个 问题 , 我 们 首先 将 数组 排序 (为 
二 分 查找 做 准备 ) ,然后 对 于 数组 中 的 每 个 a[i] ， 使 用 BinarySearch 的 rankQ 方法 对 -a[i] 进行 
二 分 查找 。 如 果 结 果 为 j 且 j>i， 我 们 就 将 计数 器 加 1。 这 个 简单 的 条 件 测试 覆盖 了 三 种 情况 : 

口 如 果 二 分 查找 不 成 功 则 会 返回 -1， 因 此 我 们 不 会 增加 计数 器 的 值 ; 

口 如 果 二 分 查找 返回 的 j>i， 我 们 就 有 a[i] + a[j] = 0， 增 加 计数 需 的 值 ; 

口 如 果 二 分 查找 返回 的 j 在 0 和 1i 之 间 , 我 们 也 有 a[i] + a[j] = 0, 但 不 能 增加 计数 器 的 值 ， 

以 避免 重复 计数 。 

这 样 得 到 的 结果 和 平方 级 别 的 算 5 
法 得 到 的 结果 完全 相同 ， 但 它 所 需 的 
时 间 要 少 得 多 。 归并 排序 所 需 的 时 间 人 class TwoSunmFast 





和 NlogN 成 正比 ， 二 分 查找 所 需 的 时 public static int countCint[] a) 
间 和 logN 成 正比 ， 因 此 整个 算法 的 i 
运行 时 间 和 NlogN 成 正比 。 像 这 样 设 int N = a, length: 
i cnt = YO; 
计 一 个 更 快 的 算法 并 不 仅仅 是 一 种 学 i bl 
院 派 的 练习 一 一 更 快 的 算法 使 我 们 能 if (BinarySearch.rank(-a[i]，a) > i) 
够 解决 更 庞大 的 问题 。 例 如 ， 你 现在 ed 
可 以 在 可 接受 的 时 间 范 围 内 在 计算 机 } 
上 解决 100 万 个 整数 (1Mints.txt ) public static void main(Stringl] args) 189 
的 2-sum 问题 了 ， 但 如 果 用 平方 级 别 : intfi a In.readIints(args TO}); 


的 算法 你 肯定 需要 等 上 很 长 很 长 的 时 StdOut .printinCcount(a)); 
间 (请 见 练习 1.4.41 ) 。 | 
1.4.5.2 3-sum 问题 的 快速 算法 

这 种 方式 对 3-sum 问题 同样 有 2-sum 问题 的 线性 对 数 级 别 的 解法 
效 。 和 刚才 一 样 ， 我 们 假设 所 有 整数 
均 各 不 相同 。 当 且 仅 当 -(a[i] + ar[]j]) 在 数组 中 (不 是 a[i] 也 不 是 a[j] ) 时 ， 整 数 对 (a[i] 和 
a[j]) 为 某 个 和 为 0 的 三 元 组 的 一 部 分 。 下 面 代码 框 中 的 代码 会 将 数组 排序 并 进行 NV-1)/2 次 二 分 
查找 ， 每 次 查找 所 需 的 时 间 都 和 logX 成 正比 。 因 此 总 运行 时 间 和 NilogX 成 正比 。 可 以 注意 到 ， 在 
这 种 情况 下 排序 的 成 本 是 次 要 因素 。 这 个 解法 也 使 我 们 能 够 解决 更 大 规模 的 问题 ( 请 见 练习 1.4.42 ) 。 
图 1.4.6 显示 了 用 这 4 种 算法 解决 我 们 提 到 过 的 几 种 问题 规模 时 的 成 本 的 悬 珠 差距 。 这 样 的 差距 显 
然 是 我 们 追求 更 快 的 算法 的 动力 。 
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1.4.5.3 下 界 
表 1.4.8 总 结 了 本 节 所 讨 
论 的 内 容 。 我 们 立即 产生 了 一 Ph 
个 有 趣 的 疑问 ;我 们 还 能 找到 cjass ThreeSumFast 


import java.util.Arrays; 


比 2-sum 问题 的 TwoSumFast public he int count(intl] a) 
二 V// 计算 和 为 0 的 三 元 组 的 数目 

和 3-sum 问题 的 ThreeSumFast en et Co 
快 得 多 的 算法 吗 ?” 是 否 存 在 解 int N= a. Tength; 

~ int cht = 0: 
决 2-sum 问题 的 线性 级 别 的 算 Te 
法 ，3-sum 问题 的 线性 对 数 级 a j= 1+ j < N; j++) 

\ if (BinarySearch.rank(-a[i]-a[j], j 
别 的 算法 ? 对 于 2-sum， 这 个 mt ra [ij-=a[j], a) > DD 
问题 的 回答 是 没有 (成 本 模型 return cnt; 
、 、 

仅 人 允许 使 用 并 计算 这 些 整数 的 
线性 或 是 平方 级 别 的 函数 中 的 public static void main(String[] args) 
比较 操作 ) ; 对 于 3-sum， 回 int[] a = En.readIntskargs[0]1); 


StdOut.printin(count a)),; 


答 是 不 知道 ， 不 过 专家 们 相信 
3-sum 可 能 的 最 优 算法 是 平方 
级 别 的 。 为 算法 在 最 坏 情况 下 


的 运行 时 间 给 出 一 个 下 界 的 思 Tepe 








想 是 非常 有 意义 的 ， 我 们 会 在 2.2 节 中 学 习 排 序 时 再 次 表 1.4.8 运行 时 间 的 总 结 
讨论 它 。 复 杂 的 下 界 是 很 难 找到 的 ， 但 它 非 常 有 助 于 指 算 法 运行 时 间 的 增长 数量 级 
引 我 们 追求 更 加 有 效 的 算法 。 TwoSum 入 
本 节 中 所 讨论 的 例子 为 我 们 学 习 本 书 中 的 其 他 算法 TwoSumFast NlogN 

打下 了 基础 。 在 本 书 中 ， 我 们 会 按照 以 下 方式 解决 各 种 ThreeSum NY 
新 的 问题 。 ThreeSumFast NlogN 

100 N? 1000 NY2 NilgN 

加 < 一 ThreeSum 

Ec 0 内 800 
和 
芭 60 到 600 
室 SS 坚 
加 40 加 400 


20 200 


“~.ThreeSunFast 


TwoSumFast 


4NlgN 
1K 2K 4k 8K IK 2K 4K 8K 
问题 的 规模 N 问题 的 规模 N 


图 1.4.6 解决 2-sum 和 3-sum 问题 的 各 种 算法 的 成 本 
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口 实现 并 分 析 该 问题 的 一 种 简单 的 解法 。 我 们 通常 将 它们 称 为 暴力 算法 ， 例 如 ThreeSum 和 
TwoSum。 
口 考查 算法 的 各 种 改进 ， 它 们 通常 都 能 降低 算法 所 需 的 运行 时 间 的 增长 数量 级 ， 例 如 
TwoSumFast 和 ThreeSumFast。 
口 用 实验 证 明 新 的 算法 更 快 。 
在 许多 情况 下 ， 我 们 会 学 习 解 决 同一 个 问题 的 多 种 算法 ， 因 为 对 于 实际 问题 来 说 运行 时 间 只 是 
选择 算法 时 所 要 考虑 的 各 种 因素 之 一 。 在 本 书 中 我 们 会 在 解决 各 种 基础 问题 时 逐渐 理解 这 一 点 。 


1.4.6 ”倍率 实验 
下 面 这 种 方法 可 以 简单 有 效 地 预测 任意 程序 的 性 能 并 判断 它们 的 运行 时 间 大 致 的 增长 数量 级 。 
口 开 发 一 个 输入 生成 器 来 产生 实际 情况 下 的 各 种 可 能 的 输入 (例如 DoublingTest 中 的 
timeTrial() 方法 能 够 生成 随机 整数 ) 。 
口 运行 下 方 的 DoublingRatio 程序 ， 它 是 DoublingTest 的 修改 版 本 ， 能 够 计算 每 次 实验 和 上 一 
次 的 运行 时 间 的 比值 。 
口 反复 运行 直到 该 比值 趋 近 于 极限 2"。 
这 个 实验 对 于 比值 没有 极限 的 算法 无 效 ， 但 它 仍 然 适 用 于 许多 程序 ， 我 们 可 以 得 出 以 下 结论 。 
口 它们 的 运行 时 间 的 增长 数量 级 约 为 Y。 
口 要 预测 一 个 程序 的 运行 时 间 ， 将 上 次 观察 得 到 的 运行 时 间 乘 以 22 并 将 X 加 倍 ， 如 此 反复 。 
如 果 你 希望 预测 的 输入 规模 不 是 NN 乘 以 2 的 需 , 可 以 相应 地 调整 这 个 比例 (请 见 练习 1.4.9 ) 。 
如 下 所 示 ，ThreeSum 的 比例 约 为 8， 因 此 我 们 可 以 预测 程序 对 于 N=16 000、32 000 和 64 000 
的 运行 时 间 将 分 别 为 408.8、3270.4 和 26 163.2 秒 ， 也 就 是 处 理 8000 个 整数 所 需 的 时 间 (51.1 秒 ) 
连续 乘 以 8 即 可 。 


实验 程序 
public class DoublingRatio 试验 结果 
public static double timeTrial(int N) % java DoublingRatio 
// 参见 Doub1ingTest (请 见 1.4.2.3 节 实 验 程序 ) 250 0.0 过 7 
public static void mainfString[] args) 500 050-: i 
{ 1000 OnSb 人 
double prev = timeTrial(125); 2000 Oe Bu 
for Cint N = 250; True; N += N) 4000 634" 80 
{ 8000 Bud ro 
double time = timeTrialN); 
Stdout printf( %6d %7.1f ", N, time); 
StdOut.printf("%5.1f\n", time/prev); 预测 


prev = time; 
} 16000 408.8 8.0 
} 32000 3270.4 8.0 
64000 26163.2 8.0 


该 测试 基本 类 似 于 1.4.2.3 节 所 描述 的 过 程 ( 运行 实验 , 绘 出 对 数 图 像 得 到 运行 时 间 为 aN” 的 猜想 ， 
从 直线 的 斜率 得 到 b 的 值 ， 然 后 算出 a) ,但 它 更 容易 使 用 。 事 实 上 ， 可 以 手工 通过 DoublingRatio 
准确 地 预测 程序 的 性 能 。 在 比例 趋 近 于 极限 时 ， 只 需要 不 断 乘 以 该 比例 即 可 得 到 更 大 规模 的 问题 的 
运行 时 间 。 这 里 ， 增 长 数量 级 的 近似 模型 是 一 个 寡 次 法 则 ， 指 数 为 该 比例 的 以 2 为 底 的 对 数 。 
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为 什么 这 个 比例 会 趋向 于 一 个 常数 ? 简单 的 数学 计算 显示 我 们 讨论 过 的 所 有 常见 的 增长 数量 级 
函数 〈 指数 级 别 除 外 ) 均 会 出 现 这 种 情况 : 


命题 C。( 信 和 率 定理 ) 如 果 T(N) ~ aNlgN， 那 么 TCCNJTCV ~ 2 。 


证 明 。T(2N)/T(N) = a(2N)’lg(2N)/aN’lgN 
=2°(1+lg2/lgN) 
2 


一 般 来 说 ， 数 学 模型 中 的 对 数 项 是 不 能 忽略 的 ， 但 在 倍率 假设 中 它 在 预测 性 能 的 公式 中 的 作用 
并 不 那么 重要 。 

在 有 性 能 压力 的 情况 下 应 该 考虑 对 编写 过 的 所 有 程序 进行 倍率 实验 一 一 这 是 一 种 估计 运行 时 间 
的 增长 数量 级 的 简单 方法 ,或 许 它 能 够 发 现 一 些 性 能 问题 ， 比 如 你 的 程序 并 没有 想象 的 那样 高 效 。 
一 般 来 说 ,我们 可 以 用 以 下 方式 对 程序 的 运行 时 间 的 增长 数量 级 作出 假设 并 预测 它 的 性 能 。 
1.4.6.1 评估 它 解 决 大 型 问题 的 可 行 性 

对 于 编写 的 每 个 程序 ， 你 都 需要 能 够 回答 这 个 基本 问题 : “该 程序 能 在 可 接受 的 时 间 内 处 理 这 
些 数据 吗 ? ”对 于 大 量 数 据 ， 要 回答 这 个 问题 我 们 需要 一 个 比 乘 以 2 更 大 的 系数 (比如 10 ) 来 进行 
推断 ， 如 表 1.4.9 所 示 。 无 论 是 投资 银行 家 处 理 每 日 的 金融 数据 还 是 工程 师 对 设计 进行 模拟 测试 ， 
定期 运行 需要 若干 个 小 时 才能 完成 的 程序 是 很 常见 的 ， 表 1.4.9 的 重点 也 就 是 这 些 情况 。 了 解 程序 
的 运行 时 间 的 增长 数量 级 能 够 为 你 提供 精确 的 信息 ， 从 而 理解 你 能 够 解决 的 问题 规模 的 上 限 。 理 解 
诸如 此 类 的 问题 ， 是 研究 性 能 的 首要 原因 。 没 有 这 些 知 识 ， 你 将 对 一 个 程序 所 需 的 时 间 一 无 所 知 ; 
而 如 果 你 有 了 它们 ， 一 张 信 封 的 背面 就 足够 你 计算 出 运行 所 需 的 时 间 并 采取 相应 的 行动 。 
1.4.6.2 评估 使 用 更 快 的 计算 机 所 产生 的 价值 

你 可 能 会 面 对 的 另 一 个 基本 问题 是 : “如 果 我 能 够 得 到 一 台 更 快 的 计算 机 ， 解 决 问题 的 速度 能 
够 加 快 多 少 ? ”一 般 来 说 ， 如 果 新 计算 机 比 老 的 快 x 倍 ,运行 时 间 也 将 变 为 原来 的 x 分 之 一 。 但 你 
一 般 都 会 用 新 计算 机 来 处 理 更 大 规模 的 问题 ， 这 将 会 如 何 影响 所 需 的 运行 时 间 呢 ? 同样 ， 增 长 的 数 
量 级 信息 也 正 是 你 回答 这 个 问题 所 需要 的 。 

著名 的 摩尔 定律 告诉 我 们 ，18 个 月 后 计算 机 的 速度 和 内 存 容量 都 会 翻 一 番 ，5 年 后 计算 机 的 速 
度 和 内 存 容量 都 会 变 为 现在 的 10 倍 。 表 1.4.9 说 明 如 果 你 使 用 的 是 平方 或 者 立方 级 别 的 算法 ,摩尔 
定律 就 不 适用 了 。 进 行 倍率 测试 并 检查 随 着 输入 规模 的 倍增 前 后 运行 时 间 之 比 是 趋向 于 2 而 非 4 或 
者 8 即 可 验证 这 种 情况 。 


表 1.4.9 根据 增长 的 数量 级 函数 作出 的 预测 


运行 时 间 的 增长 数量 级 节 才 为 妆 计数 为 计 处 理 输入 规模 为 N 的 数据 需要 若干 小 时 的 某 个 程序 
描述 函数 处 理 10N 的 预计 时 间 ”在 快 10 倍 的 计算 机 上 处 理 10N 的 预计 时 间 
线性 级 别 N 2 10 一 天 几 个 小 时 
线性 对 数 级 别 ”NlogN 2 10 一 天 几 个 小 时 
平方 级 别 NY 4 100 几 个 星期 一 天 
立方 级 别 NY 8 1000 几 个 月 几 个 星期 
指数 级 别 2 bi We 永远 永远 
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1.4.7 ”注意 事项 

在 对 程序 的 性 能 进行 仔细 分 析 时 ， 得 到 不 一 致 或 是 有 误导 性 的 结果 的 原因 可 能 有 许多 种 。 它 们 
都 是 由 于 我 们 的 猜想 基于 的 一 个 或 多 个 假设 并 不 完全 正确 所 造成 的 。 我 们 可 以 根据 新 的 假设 得 出 新 
的 猜想 ， 但 我 们 考虑 的 细节 越 多 ， 在 分 析 中 需要 注意 的 方面 也 就 越 多 。 
1.4.7.1 大 常数 

在 首 项 近似 中 ,我 们 一 般 会 忽略 低级 项 中 的 常数 系数 ， 但 这 可 能 是 错 的 。 例 如 ， 当 我 们 取 函 
数 2M+cN 的 近似 为 ~ 2N 时 ， 我 们 的 假设 是 c 很 小 。 如 果 事 实 不 是 这 样 (比如 c 可 能 是 10 或 是 
10” ) ， 该 近似 就 是 错误 的 。 因 此 ， 我 们 要 对 可 能 的 大 常数 保持 敏感 。 
1.4.7.2” 非 决定 性 的 内 循环 

内 循环 是 决定 性 因素 的 假设 并 不 总 是 正确 的 。 错 误 的 成 本 模型 可 能 无 法 得 到 真正 的 内 循环 ， 问 
题 的 规模 N 也 许 没有 大 到 对 指令 的 执行 频率 的 数学 描述 中 的 首 项 大 大 超过 其 他 低级 项 并 可 以 忽略 它 
们 的 程度 。 有 些 程序 在 内 循环 之 外 也 有 大 量 指令 需要 考虑 。 换 句 话说， 成 本 模型 可 能 还 需要 改进 。 
1.4.7.3 ”指令 时 间 

每 条 指令 执行 所 需 的 时 间 总 是 相同 的 假设 并 不 总 是 正确 的 。 例 如 ， 大 多 数 现代 计算 机 系统 都 会 
使 用 缓存 技术 来 组 织 内 存 ， 在 这 种 情况 下 访问 大 数组 中 的 若干 个 并 不 相 邻 的 元 素 所 需 的 时 间 可 能 很 
长 。 如 果 让 DoublingRatio 运行 的 时 间 长 一 些 ， 你 可 能 可 以 观察 到 缓存 对 ThreeSum 所 产生 的 效果 。 
在 运行 时 间 的 比例 看 似 收敛 到 8 以 后 ， 由 于 缓存 ， 对 于 大 数组 该 比例 也 可 能 突然 变 为 很 大 的 值 。 
1.4.7.4 ”系统 因素 

一 般 来 说 ， 你 的 计算 机 总 是 同时 运行 着 许多 程序 。Java 只 是 争夺 资源 的 众多 应 用 程序 之 一 ， 而 
是 Java 本 身 也 有 许多 能 够 大 大 影响 程序 性 能 的 选项 和 设置 。 某 种 垃圾 收集 器 或 是 JIT 编译 器 或 是 正 
在 从 因特网 中 进行 的 下 载 都 可 能 极 大 地 影响 实验 的 结果 。 这 些 因素 可 能 会 干扰 到 实验 必须 是 可 重 现 
的 这 条 科学 研究 的 基本 原则 ， 因 为 此 时 此 刻 计算 机 中 所 发 生 的 一 切 是 无 法 再 次 重 现 的 。 原 则 上 来 说 
此 时 系统 中 运行 的 其 他 程序 应 该 是 可 以 忽略 或 可 以 控制 的 。 
1.4.7.5 不 分 伯仲 

在 我 们 比较 执行 相同 任务 的 两 个 程序 时 ， 常 常 出 现 的 情况 是 其 中 一 个 在 某 些 场 景 中 更 快 而 在 另 
一 些 场景 中 更 慢 。 我 们 已 经 提 到 过 的 一 些 因素 可 能 会 造成 这 种 差异 。 有 些 程序 员 ( 以 及 一 些 学 生 ) 
特别 喜欢 投入 大 量 精力 进行 比赛 并 找 出 “最 佳 ”的 实现 ， 但 此 类 工作 最 好 还 是 留 给 专家 。 
1.4.7.6 ”对 输入 的 强烈 依赖 

在 研究 程序 的 运行 时 间 的 增长 数量 级 时 ， 我 们 首先 作出 的 几 个 假设 之 一 就 是 运行 时 间 应 该 和 输 
入 相对 无 关 。 当 这 个 条 件 无 法 满足 时 ,我 们 很 可 能 无 法 得 到 一 致 的 结果 或 是 验证 我 们 的 猜想 。 例 如 ， 
假设 我 们 为 回答 : “输入 中 是 否 存 在 和 为 0 的 三 个 整数 ? ”而 修改 ThreeSum 并 返回 boolean 值 ， 
将 cnt++ 替换 为 return true 并 在 最 后 加 上 return false 作为 结尾 ， 那 么 如 果 输 入 中 的 头 三 个 
整数 的 和 为 0， 该 程序 的 运行 时 间 的 增长 数量 级 为 常数 级 别 ; 如 果 输 入 不 含有 这 样 的 三 个 整数 ， 程 
序 的 运行 时 间 的 增长 数量 级 则 为 立方 级 别 。 
1.4.7.7 多 个 问题 参量 

我 们 过 去 的 重点 一 直 是 使 用 仅 需要 一 个 参量 的 函数 来 衡量 程序 的 性 能 ， 参 量 一 般 是 命令 行 参数 
或 是 输入 的 规模 。 但 是 ， 多 个 参量 也 是 可 能 的 。 典 型 的 例子 是 需要 构造 一 个 数据 结构 并 使 用 该 数据 
结构 进行 一 系列 操作 的 算法 。 在 这 种 应 用 程序 中 数据 结构 的 大 小 和 操作 的 次 数 都 是 问题 的 参量 。 我 
们 已 经 见 过 一 个 这 样 的 例子 ， 即 对 使 用 二 分 查找 的 白 名 单 问题 的 分 析 ， 其 中 白 名 单 中 有 N 个 整数 而 
输入 中 有 M 个 整数 ， 运 行 时 间 一 般 和 MlogN 成 正比 。 
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尽管 需要 注意 的 问题 很 多 ， 对 于 每 个 程序 员 来 说 ， 对 程序 的 运行 时 间 的 增长 数量 级 的 理解 都 是 
非常 有 价值 的 ， 而 且 我 们 这 里 所 描述 的 方法 也 都 十 分 强大 并 且 应 用 范围 广泛 。Knuth 证 明了 原则 上 
我 们 只 要 正确 并 完整 地 使 用 了 这 些 方法 就 能 够 对 程序 作出 详细 准确 的 预测 。 计 算 机 系统 一 般 都 非常 
复杂 ， 完 整 精 确 的 分 析 最 好 留 给 专家 们 ， 但 相同 的 方法 也 可 以 有 效 地 近似 估计 出 任何 程序 所 需 的 运 
行 时 间 。 火 箭 科学 家 需要 大 致知 道 一 枚 试验 火箭 的 着 陆地 点 是 在 大 海里 还 是 在 城市 中 ; 医学 研究 者 
需要 知道 一 次 药物 测试 是 会 杀 死 还 是 治愈 实验 对 象 ; 任何 使 用 计算 机 程序 的 科学 家 或 是 工程 师 也 应 
该 能 够 预计 它 是 会 运行 一 秒 钟 还 是 一 年 。 


1.4.8 ”处 理 对 于 输入 的 依赖 

对 于 许多 问题 ， 刚 才 所 提 到 的 注意 事项 中 最 突出 的 一 个 就 是 对 于 输入 的 依赖 ， 因 为 在 这 种 情况 
下 程序 的 运行 时 间 的 变化 范围 可 能 非常 大 。1.4.7.6 节 中 ThreeSum 的 修改 版 本 的 运行 时 间 的 范围 根据 
输入 的 不 同 可 能 在 常数 级 别 到 立方 级 别 之 间 ， 因 此 如 果 我 们 想 要 预测 它 的 性 能 ， 就 需要 对 它 进 行 更 
加 细致 的 分 析 。 在 这 里 我 们 会 简略 讨论 一 些 有 效 的 方法 ,我们 会 在 学 习 本 书 中 的 其 他 算法 时 用 到 它们 。 
1.4.8.1 输入 模型 

一 种 方法 是 更 加 小 心地 对 我 们 所 要 解决 的 问题 所 处 理 的 输入 建 模 。 例 如 ， 我 们 可 能 会 假设 
ThreeSum 的 所 有 输入 均 为 随机 int 值 。 使 用 这 种 方法 的 困难 主要 有 两 点 : 

口 输入 模型 可 能 是 不 切实 际 的 ; 

口 对 输入 的 分 析 可 能 极端 困难 ， 所 需 的 数学 技巧 远 非 一 般 的 学 生 或 者 程序 员 所 能 掌握 。 

其 中 前 者 更 为 重要 ， 因 为 计算 的 目的 就 是 发 现 输入 的 性 质 。 例 如 ， 如 果 我 们 编写 了 一 个 程序 来 
处 理 基因 组 ， 我 们 怎样 才能 估计 出 它 在 处 理 不 同 的 基因 组 时 的 性 能 呢 ? 描述 自然 界 中 的 基因 组 的 优 
秀 模型 正 是 科学 家 们 所 寻找 的 ， 因 此 预计 我 们 的 程序 在 处 理 自然 界 中 得 到 的 数据 时 所 需 的 运行 时 间 
实际 上 也 是 在 为 寻找 这 个 模型 做 出 贡献 ! 第 二 个 困难 只 和 最 重要 的 几 个 算法 的 数学 结果 有 关 ， 我 们 
将 会 看 到 几 个 用 简单 可 靠 的 输入 模型 加 上 经 典 的 数学 分 析 帮 助 我 们 预测 程序 性 能 的 例子 。 
1.4.8.2 ”对 最 坏 情 况 下 的 性 能 的 保证 

有 些 应 用 程序 要 求 程序 对 于 任意 输入 的 运行 时 间 均 小 于 某 个 指定 的 上 限 。 为 了 提供 这 种 性 能 保 
证 ， 理 论 研究 者 们 要 从 极度 翡 观 的 角度 来 估计 算法 的 性 能 : 在 最 坏 情况 下 程序 的 运行 时 间 是 多 少 ? 
例如 ， 这 种 保守 的 做 法 对 于 运行 在 核反应 推 、 心 脏 起 搏 器 或 者 条 车 控制 器 之 中 的 软件 可 能 是 十 分 必 
要 的 。 我 们 希望 保证 此 类 软件 能 够 在 某 个 指定 的 时 间 范 围 内 完成 任务 ， 否 则 结果 会 非常 糟糕 。 科 学 
家 们 在 研究 自然 界 时 一 般 不 会 去 考虑 最 坏 的 情况 : 在 生物 学 中 ， 最 坏 的 情况 也 许 是 人 类 的 灭绝 ; 在 
物理 学 中 ， 最 坏 的 情况 也 许 是 宇宙 的 结束 。 但 是 在 计算 机 系统 中 最 坏 情况 是 非常 现实 的 忧虑 ， 因 为 
程序 的 输入 可 能 来 自 另 外 一 个 〈 可 能 是 恶意 的 ) 用 户 而 非 自 然 界 。 例 如 ， 没 有 使 用 提供 性 能 保证 算 
法 的 网 站 无 法 抵御 拒绝 服务 攻击 ， 这 是 一 种 黑客 用 大 量 请 求 淹没 服务 器 的 攻击 ， 会 使 网 站 的 运行 速 
度 相 比 正常 状态 大 幅 下 降 。 因 此 ， 我 们 的 许多 算法 的 设计 已 经 考虑 了 为 性 能 提供 保证 ， 例 如 : 


命题 D。 在 Bag (请 见 算法 1.4) 、Stack (请 见 算法 1.2) 和 Queue (请 见 算法 1.3 ) 的 链表 实现 
中 所 有 的 操作 在 最 坏 情况 下 所 需 的 时 间 都 是 常数 级 别 的 。 


证 明 。 由 代码 可 知 ， 每 个 操作 所 执行 的 指令 数量 均 小 于 一 个 很 小 的 常数 。 注 意 : 该 论证 依赖 于 
一 个 〈 合 理 的 ) 假设 ， 即 Java 系统 能 够 在 常数 时 间 内 创建 一 个 新 的 Node 对 象 。 
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1.4.8.3 ”随机 化 算法 

为 性 能 提供 保证 的 一 种 重要 方法 是 引入 随机 性 。 例 如 ,我们 将 在 2.3 节 中 学 习 的 快速 排序 算法 ( 可 
能 是 使 用 最 广泛 的 排序 算法 ) 在 最 坏 情 况 下 的 性 能 是 平方 级 别 的 ， 但 通过 随机 打 乱 输入 ， 根 据 概 率 
我 们 能 够 保证 它 的 性 能 是 线性 对 数 的 。 每 次 运行 该 算法 ， 它 所 需 的 时 间 均 不 相同 ， 但 它 的 运行 时 间 
超过 线性 对 数 级 别 的 可 能 性 小 到 可 以 忽略 。 与 此 类 似 ， 我 们 将 在 3.4 节 中 学 习 的 用 于 符号 表 的 散 列 
算法 (同样 也 可 能 是 使 用 最 广泛 的 同类 算法 ) 在 最 坏 情况 下 的 性 能 是 线性 级 别 的 ， 但 根据 概率 我 们 
可 以 保证 它 的 运行 时 间 是 常数 级 别 的 。 这 些 保证 并 不 是 绝对 的 ， 但 它们 失效 的 可 能 性 甚至 小 于 你 的 
电脑 被 内 电击 中 的 可 能 性 。 因 此 ， 这 种 保证 在 实际 中 也 可 以 用 来 作为 最 坏 情况 下 的 性 能 保证 。 
1.4.8.4 ”操作 序列 

对 于 许多 应 用 来 说 ， 算 法 的 “输入 ”可 能 并 不 只 是 数据 ， 还 包括 用 例 所 进行 的 一 系列 操作 的 顺 
序 。 例 如 ， 对 于 一 个 下 压 栈 来 说 ， 用 例 先 压 入 NN 个 值 然后 青 将 它们 全 部 弹出 的 所 得 到 的 性 能 ， 和 入 
次 压 入 弹出 的 混合 操作 序列 所 得 到 的 性 能 可 能 大 不 相同 。 我 们 的 分 析 要 将 这 些 情况 都 考虑 进去 (或 
者 包含 一 个 操作 序列 的 合理 模型 ) 。 
1.4.8.5” 均 摊 分 析 

相应 地 ， 提 供 性 能 保证 的 男 一 种 方法 是 通过 记录 所 有 操作 的 总 成 本 并 除 以 操作 总 数 来 将 成 本 均 
摊 。 在 这 里 ， 我 们 可 以 允许 执行 一 些 昂贵 的 操作 ， 但 保持 所 有 操作 的 平均 成 本 较 低 。 这 种 类 型 分 析 
的 典型 例子 是 我 们 在 1.3 节 中 对 基于 动态 调整 数组 大 小 的 Stack 数据 结构 ( 请 见 1.3.2.5 节 的 算法 1.1 ) 
的 研究 。 简 单 起 见 , 假设 N 是 2 的 震 。 如 果 数 据 结 构 初 始 为 空 ，X 次 连续 的 push() 调用 需要 访问 
数组 元 素 多 少 次 ? 计算 这 个 答案 很 简单 ， 数 组 访问 的 次 数 为 

N+4+8+16+*…*+2N=5N-4 


其 中 , 首 项 表示 NN 次 pushQ 调用 ， 256 
其 余 的 项 表示 每 次 数组 长 度 加 倍 时 初始 
化 数据 结构 所 访问 数组 的 次 数 。 因 此 ， 


到 每 个 如 点 由 1 
每 次 操作 访问 数组 的 平均 次 数 为 常数 ， 

长 

尿 

0 


示 一 次 操作 Ps 
但 最 后 一 次 操作 所 需 的 时 间 是 线性 的 。 
这 种 计算 被 称 为 均 挫 分 析 ， 因 为 我 们 将 


| 红 点 表示 的 是 累计 平均 2. 
少量 昂贵 操作 的 成 本 通过 各 种 大 量 廉价 0 add 0) 操作 的 数量 入 








的 操作 摊 平 了 。VisualAccumu1ator 
能 够 很 容易 地 展示 这 个 过 程 ， 如 图 1.4.7 图 1.4.7 向 一 个 RandomBag 对 象 中 添加 元 素 时 的 


见 彩 
所 示 。 均 摊 成 本 〈 另 见 彩 插 ) 


命题 E。 在 基于 可 调整 大 小 的 数组 实现 的 Stack 数据 结构 中 (请 见 算法 1.1 ) ， 对 空 数据 结构 所 
进行 的 任意 操作 序列 对 数组 的 平均 访问 次 数 在 最 坏 情 况 下 均 为 常数 。 


简略 证 明 。 对 于 每 次 使 数组 大 小 增加 (假设 大 小 从 N 变 为 2N) 的 push() 操作 ， 对 于 M2+2 到 

NN 之 间 的 任意 k， 考 虑 使 栈 大 小 增长 到 的 最 近 N/2-1 次 push() 操作 。 将 使 数组 长 度 加 倍 所 需 

的 4N 次 访问 和 所 有 push() 操作 所 需 的 N/2 次 数组 访问 (每 次 push() 操作 均 需 访问 一 次 数组 ) 

取 平 均 ， 我 们 可 以 得 到 每 次 操作 的 平均 成 本 为 9 次 数组 访问 。 要 证 明 长 度 为 M 的 任意 操作 序列 ， 
所 需 的 数组 访问 次 数 和 M 成 正比 则 更 加 复杂 (请 见 练习 1.4.32 ) 。 


126 和 第 1 章 基 础 


这 种 分 析 应 用 范围 很 广 ， 我 们 会 使 用 可 动态 调整 大 小 的 数组 作为 数据 结构 实现 本 书 中 的 若干 
算法 。 

算法 分 析 者 的 任务 就 是 尽 可 能 地 揭示 关于 某 个 算法 的 更 多 信息 ， 而 程序 员 的 任务 则 是 利用 这 些 
信息 开发 有 效 解决 现实 问题 的 程序 。 在 理想 状态 下 ， 我们 希望 根据 算法 能 够 得 到 清晰 简洁 的 代码 并 
能 够 为 我 们 感 兴趣 的 输入 提供 良好 的 保证 和 性 能 。 我 们 在 本 章 中 讨论 的 许多 经 典 算法 之 所 以 对 众多 
应 用 都 十 分 重要 就 是 因为 它们 具备 这 些 性 质 。 以 它们 作为 样板 ， 在 编程 中 遇 到 典型 问题 时 你 也 能 独 
立 给 出 很 好 的 解决 方法 。 


1.4.9 内 存 

和 运行 时 间 一 样 ， 一 个 程序 对 内 存 的 使 用 也 和 物理 世界 直接 相关 : 计算 机 中 的 电路 很 大 一 部 分 
的 作用 就 是 帮助 程序 保存 一 些 值 并 在 稍 后 取出 它们 。 在 任意 时 刻 需 要 保存 的 值 越 多 ， 需 要 的 电路 也 
就 越 多 。 你 可 能 知道 计算 机 能 够 使 用 的 内 存 上 限 ( 知道 这 一 点 的 人 应 该 比 知道 运行 时 间 限 制 的 人 要 
多 ) 因为 你 很 可 能 已 经 在 内 存 上 花 了 不 少 额 外 的 支出 。 

计算 机 上 的 Java 对 内 存 的 使 用 经 过 了 精心 的 设计 ( 程序 的 每 个 值 在 每 次 运行 时 所 需 的 内 存量 都 
是 一 样 的 ) ， 但 实现 了 Java 的 设备 非常 多 ， 而 内 存 的 使 用 是 和 实现 相关 的 。 简 单 起 见 ， 我 们 用 典型 
这 个 词 暗示 和 机 器 相关 的 值 。 

Java 最 重要 的 特性 之 一 就 是 它 的 内 存 分 配 系统 。 它 的 任务 是 把 你 从 对 内 存 的 操作 之 中 解脱 出 来 。 
显然 ， 你 肯定 已 经 知道 应 该 在 适当 的 时 候 利用 这 个 功能 ， 但 是 你 也 应 该 ( 至少 是 大 概 ) 知道 程序 对 
内 存 的 需求 在 何 时 会 成 为 解决 问题 的 障碍 。 

分 析 内 存 的 使 用 比分 析 程 序 所 需 的 运行 时 间 要 简单 得 多 ， 主 要 原因 是 它 所 涉及 的 程序 语句 较 少 
( 只 有 声明 语句 ) 且 在 分 析 中 我 们 会 将 复杂 的 对 象 简化 为 原始 数据 类 型 ， 而 原始 数据 类 型 的 内 存 使 
用 是 预先 定义 好 的 ， 而 且 非 常 容易 理解 : 只 需 将 变量 的 数量 和 它们 的 类 型 所 对 应 的 字 节 数 分 别 相 乘 
并 汇总 即 可 。 例 如 ,因为 Java 的 int 数 据 类 型 是 -2 147 483 648 到 2 147 483 647 之 间 的 整数 值 的 集合 ， 
即 总 数 为 2” 个 不 同 的 值 ， 典 型 的 Java 实现 使 用 32 位 来 表示 int 值 。 其 他 原始 数据 类 型 的 内 存 使 
用 也 是 基于 类 似 的 考虑 : 典型 的 Java 实现 使 用 8 位 表示 字 节 ,用 2 字 节 (16 位 ) 表示 一 个 char 值 ， 
用 4 字 节 (32 位 ) 表示 一 个 int 值 ,用 8 字 节 (64 位 ) 表示 一 个 double 或 者 1ong 值 ,用 1 字 节 
表示 一 个 boolean 值 (因为 计算 机 访问 内 存 的 方式 都 是 一 次 1 字 节 ) ， 见 表 1.4.10。 根 据 可 用 内 存 
的 总 量 就 能 够 计算 出 保存 这 些 值 的 极限 数量 。 例 如 ， 如 果 计 算 机 有 1 GB 内 存 ( 10 亿 字 节 ) ， 那 么 
同一 时 间 最 多 能 在 内 存 中 保存 3200 万 个 int 值 或 是 1600 万 个 double 值 。 

从 男 一 方面 来 说 ， 对 内 存 使 用 的 分 析 和 硬件 以 及 表 1.4.10 原始 数据 类 型 的 常见 内 存 、 需 求 
Java 的 不 同 实现 中 的 各 种 差异 有 关 ， 因 此 我 们 举 出 的 A 


型 
这 个 特定 的 例子 并 不 是 一 成 不 变 的 ， 你 应 该 以 它 为 参 一 一 
考 来 学 习 在 条 件 允 许 的 情况 下 如 何 分 析 内 存 的 使 用 。 te 
例如 ， 许 多 数据 结果 都 涉及 对 机 器 地 址 的 表示 ， 而 在 hak 2 
各 种 计算 机 中 一 个 机 器 地 址 所 需 的 内 存 又 各 有 不 同 。 int 4 
为 了 保持 一 致 ， 我 们 假设 表示 机 器 地 址 需要 8 字 节 ， float 4 
这 是 现在 广泛 使 用 的 64 位 构架 中 的 典型 表示 方式 ， 许 long 8 
多 老式 的 32 位 构架 只 使 用 4 字 节 表示 机 器 地 址 。 double 8 


1.4.9.1 ”对象 
要 知道 一 个 对 象 所 使 用 的 内 存量 ， 需 要 将 所 有 实例 变量 使 用 的 内 存 与 对 象 本 身 的 开销 (一 般 是 
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16 字 节 ) 相 加 。 这 些 开销 包括 一 个 指向 对 象 的 类 的 。 整数 的 封装 对 象 
引用 、 垃 圾 收集 信息 以 及 同步 信息 。 另 外 ， 一 般 内 存 re 
的 使 用 都 会 被 填充 为 8 字 节 ( 64 位 计算 机 中 的 机 器 字 ) pe 
的 倍数 。 例如, 一 个 Integer 对 象 会 使 用 24 字 节 (16 
字 节 的 对 象 开销 ，4 字 节 用 于 保存 它 的 int 值 以 及 4 
个 填充 字 节 )。 类 似 地 , 一 个 Date 对 象 ( 请 见 表 1.2.12 ) 对 条 1 pate 
需要 使 用 32 字 节 : 16 字 节 的 对 象 开销 ，3 个 int 实 private int day; 
例 变量 各 需 4 字 节 ， 以 及 4 个 填充 字 节 。 对 象 的 引用 Pe yer 
一 般 都 是 一 个 内 存 地 址 ， 因 此 会 使 用 8 字 节 。 例 如 ， ) 
一 个 Counter 对 象 ( 请 见 表 1.2.11 ) 需 要 使 用 32 字 节 : 
16 字 节 的 对 象 开销 ，8 字 节 用 于 它 的 String 型 实例 
变量 (一 个 引用 ) ，4 字 节 用 于 int 实例 变量 ,以 及 Counter 对 象 Oter 
4 个 填充 字 节 。 当 我 们 说 明 一 个 引用 所 占 的 内 存 时 ， rian rf ni 
我 们 会 单独 说 明 它 所 指向 的 对 象 所 占用 的 内 存 ， 因 此 本 Pa 


< 的 引用 


这 个 内 存 使 用 总 量 并 没有 包含 String 值 所 使 用 的 内 
存 。 和 常见 对 象 的 内 存 需求 列 在 了 图 1.4.8 中 。 
1.4.9.2 ”链表 

脱 套 的 非 静 态 ( 内 部 ) 类 , 例如 我 们 的 Node 类 ( 请 
见 1.3.3.1 节 ) ， 还 需要 额外 的 8 字 节 (用 于 一 个 指 
向 外 部 类 的 引用 ) 。 因 此 ， 一 个 Node 对 象 需要 使 
用 40 字 节 (16 字 节 的 对 象 开 销 ， 指 向 Item 和 Node 
对 象 的 引用 各 需 8 字 节 ， 另 外 还 有 8 字 节 的 额外 开 
销 ) 。 因 为 Integer 对 象 需要 使 用 24 字 节 ,一 个 含 
有 个 整数 的 基于 链表 的 栈 〈 请 见 算法 1.2 ) 需要 使 
用 (32+64N ) 字 节 ， 包 括 Stack 对 象 的 16 字 节 的 开 
销 ,引用 类 型 实例 变量 8 字 节 ,int 型 实例 变量 4 字 节 ， 
4 个 填充 字 节 ， 每 个 元 素 需 要 64 字 节 ,一 个 Node 对 象 的 40 字 节 和 一 个 Integer 对 象 的 24 字 节 。 
1.4.9.3 ”数组 

图 1.4.9 总 结 了 Java 中 的 各 种 类 型 的 数组 对 内 存 的 典型 需求 。Java 中 数组 被 实现 为 对 象 ， 它 们 
一 般 都 会 因为 记录 长 度 而 需要 额外 的 内 存 。 一 个 原始 数据 类 型 的 数组 一 般 需要 24 字 节 的 头 信息 ( 16 
字 节 的 对 象 开销 ，4 字 节 用 于 保存 长 度 以 及 4 填充 字 节 ) 再 加 上 保存 值 所 需 的 内 存 。 例 如 ， 一 个 含 
有 NN 个 int 值 的 数组 需要 使 用 (24 + 4N) 字 节 (会 被 填充 为 8 的 倍数 ) ,一 个 含有 N 个 double 
值 的 数组 需要 使 用 ( 24 + 8N ) 字 节 。 一 个 对 象 的 数组 就 是 一 个 对 象 的 引用 的 数组 ， 所 以 我 们 应 该 在 
对 象 所 需 的 内 存 之 外 加 上 引用 所 需 的 内 存 。 例 如 ， 一 个 含有 NN 个 Date 对 象 (请 见 表 1.2.12 ) 的 数 
组 需要 使 用 24 字 节 (数组 开销 ) 加 上 8N 字 节 (所 有 引用 ) 加 上 每 个 对 象 的 32 字 节 ， 总 共 (24 + 
40N ) 字 节 。 二 维 数组 是 一 个 数组 的 数组 (每 个 数组 都 是 一 个 对 象 ) 。 例 如 ,一 个 MxN 的 double 
类 型 的 二 维 数组 需要 使 用 24 字 节 (数组 的 数组 的 开销 ) 加 上 8M 字 节 ( 所 有 元 素数 组 的 引用 ) 加 
上 24M 字 节 ( 所 有 元 素数 组 的 开销 ) 加 上 8MN 字 节 ( M 个 长 度 为 N 的 double 类 型 的 数组 ) ， 总 
共 (8MN+32M+24 ) ~ 8MN 字 节 ; 当 数 组 元 素 是 对 象 时 计算 方法 类 似 ， 结 果 相 同 ， 用 来 保存 充满 
指向 数组 对 象 的 引用 的 数组 以 及 所 有 这 些 对 象 本 身 。 





Node 对 象 〈 内 部 类 ) 


public class Node 


private Item item; 
private Node next; 





图 1.4.8 ”典型 对 象 的 内 存 需求 
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int 值 的 数组 doub1e 值 的 数组 
int[] a = new int[N]; double[] c = new double[N]; 
C—> 
< 一 16 字 节 一 16 字 节 
int 值 
(4 字 节 ) 
be N 个 int 值 
7 (4N 字 节 ) ~ w 人 double 
值 (8N 字 节 ) 
总 计 : 24+4N | 2 I 
(入 为 偶数 ) Eh 
总 计 :24+8N 
4 字 节 
对 象 的 数组 32 字 节 数组 的 数组 (二 维 数组 ) N 个 double 
Date[] di double[][] ti 值 (8N 字 节 ) 
d = new Date[N]; 6 t = new double[M] [N]; 
for Cint k = 0; k < N; k++) 
af[k] = new Date (...); t 
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(8M 字 市 ) | 








总 结 
J 字 
类 型 字 节 数 Rr 
int[] ~4N 
double[] ~8N 
Date[] ~40N 


总 计 :24+8M + Mx(24+ 8N)=24+ 32M +8MN 
double[][] ~8NM SH 人 ) | 


图 1.4.9 int 值 、double 值 、 对 象 和 数组 的 数组 对 内 存 的 典型 需求 


1.4.9.4 字符 串 对象 

我 们 可 以 用 相同 的 方式 说 明 Java 的 String 类 型 对 象 所 需 的 内 存 ， 只 是 对 于 字符 串 来 说 别名 是 
非常 常见 的 。String 的 标准 实现 含有 4 个 实例 变量 : 一 个 指向 字符 数组 的 引用 (8 字 节 ) 和 三 个 
int 值 (各 4 字 节 ) 。 第 一 个 int 值 描述 的 是 字符 数组 中 的 偏 移 量 ， 第 二 个 int 值 是 一 个 计数 器 
(字符 串 的 长 度 ) 。 按 照 图 1.4.9 中 所 示 的 实例 变量 名 ， 对 象 所 表示 的 字符 串 由 value[offset] 到 
value[offset + count - 1] 中 的 字符 组 成 。String 对 象 中 的 第 三 个 int 值 是 一 个 散 列 值 ， 它 
在 某 些 情况 下 可 以 节省 一 些 计算 ， 我 们 现在 可 以 忽略 它 。 因 此 ， 每 个 String 对 象 总 共 会 使 用 40 字 
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节 (16 字 节 表示 对 象 ， 三 个 int 实例 变量 各 需 4 字 节 ， 加 上 数组 引用 的 8 字 节 和 4 个 填充 字 节 ) 。 
这 是 除 字符 数组 之 外 字符 串 所 需 的 内 存 空 间 ， 所 有 字符 所 需 的 内 存 需 要 另 记 ， 因 为 String 的 char 
数组 常常 是 在 多 个 字符 串 之 间 共 享 的 。 因 为 String 对 象 是 不 可 变 的 ， 这 种 设计 使 String 的 实现 
在 能 够 在 多 个 对 象 都 含有 相同 的 value[] 数组 时 节省 内 存 。 
1.4.9.5 “字符 串 的 值 和 子 字 符 串 

一 个 长 度 为 YX 的 String 对象 一 般 需要 使 用 40 字 节 ( String 对 象 本 身 ) 加 上 (24+2N ) 字 节 ( 字 
符 数 组 ) ， 总 共 ( 64+2N ) 字 节 。 但 字符 串 处 理 经 常会 和 子 字符 串 打交道 ， 所 以 Java 对 字符 串 的 表 








示 希 望 能 够 避免 复制 字符 串 中 的 字符 。 当 你 调用 substring 0 方法 时 ， 就 创建 了 一 个 新 的 String | 
对 象 (40 字 节 ) ， 但 它 仍然 重用 了 相同 的 value[] 数组 ， 因 此 该 字符 串 的 子 字符 串 只 会 使 用 40 字 “23 
节 的 内 存 。 含 有 原始 字符 串 的 字符 数组 的 别名 存在 于 子 字符 串 中 , 子 字符 串 对 象 的 偏 移 量 和 长 度 域 
标记 了 子 字符 串 的 位 置 。 换 句 话 说， 一 个 子 字符 囊 所 需 的 额外 内 存 是 一 个 常数 ， 构 造 一 个 子 字符 事 
所 需 的 时 间 也 是 常数 ， 即 使 字符 串 和 子 字符 串 的 长 度 极 大 也 是 这 样 。 某 些 简陋 的 字符 串 表示 方法 在 
创建 子 字符 串 时 需要 复制 其 中 的 字符 ， 这 将 需要 线 。 String 对 象 (Java 库 ) 40 字 节 
性 的 时 间 和 空间 。 确 保 子 字符 串 的 创建 所 需 的 空间 publie class Strine 
( 以 及 时 间 ) 和 其 长 度 无 关 是 许多 基础 字符 串 处 理 ee 
算法 的 效率 的 关键 所 在 。 字 符 串 的 值 与 子 字符 串 示 Be 
例如 图 1.4.10 所 示 。 
这 些 基础 机 制 能 够 有 效 帮助 我 们 估计 大 量程 序 
对 内 存 的 使 用 情况 ， 但 许多 复杂 的 因素 仍然 会 使 这 
个 任务 变 得 更 加 困难 。 我 们 已 经 提 到 了 别名 可 能 产 子 字符 串 举例 
i tanh 
消耗 就 变 成 了 一 个 复杂 的 动态 过 程 ， 因 为 Java 系统 en fe 
的 内 存 分 配 机 制 扮演 一 个 重要 的 角色 ， 而 这 套 机 制 40 字 节 
又 和 Java 的 实现 有 关 。 例 如 ， 当 你 的 程序 调用 一 个 : 
方法 时 ， 系 统 会 从 内 存 中 的 一 个 特定 区 域 为 方法 分 
配 所 需要 的 内 存 ( 用 于 保存 局 部 变量 ) ， 这 个 区 域 
叫做 栈 ( Java 系统 的 下 压 栈 ) 。 当 方法 返回 时 ， 它 
所 占用 的 内 存 也 被 返回 给 了 系统 栈 。 因 此 ， 在 递归 
程序 中 创建 数组 或 是 其 他 大 型 对 象 是 很 危险 的 ， 因 na 
为 这 意味 着 每 一 次 递归 调用 都 会 使 用 大 量 的 内 存 。 
当 通 过 new 创建 对 象 时 ， 系 统 会 从 堆 内 存 的 另 一 块 
特定 区 域 为 该 对 象 分 配 所 需 的 内 存 ( 这 里 的 堆 和 我 
们 将 在 2.4 节 学 习 的 二 又 堆 数据 结构 不 同 ) 。 而 且 ， 
你 要 记 住所 有 对 象 都 会 一 直 存在 ， 直 到 对 它 的 引用 
消失 为 止 。 此 时 系统 的 垃圾 回收 进程 会 将 它 所 占用 i 
的 内 存 收回 到 堆 中 。 这 种 动态 过 程 使 准确 估计 一 个 
程序 的 内 存 使 用 变 得 极为 困难 。 图 1.4.10 一 个 String 对 象 和 一 个 子 字符 串 “ [204] 


1.4.10 ”展望 
恨 好 的 性 能 是 非常 重要 的 。 速 度 极 慢 的 程序 和 不 正确 的 程序 一 样 无 用 ， 因 此 显然 有 必要 在 一 开 
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始 就 关注 程序 的 运行 成 本 ， 这 能 够 让 你 大 致 估计 出 所 要 解决 的 问题 的 规模 ， 而 聪明 的 做 法 是 时 刻 关 
注 程序 中 的 内 循环 代码 的 组 成 。 

但 在 编程 领域 中 ， 最 常见 的 错误 或 许 就 是 过 于 关注 程序 的 性 能 。 你 的 首要 任务 应 该 是 写 出 清 
晰 正确 的 代码 。 仅 仅 为 了 提高 运行 速度 而 修改 程序 的 事 最 好 留 给 专家 们 来 做 。 事 实 上 ， 这 人 么 做 常常 
会 降低 生产 效率 ， 因 为 它 会 产生 复杂 而 难以 理解 的 代码 。C.A.R. Hoare ( 快速 排序 的 发 明 人 ， 也 是 
一 位 推动 编写 清晰 而 正确 的 代码 的 领军 人 物 ) 兽 将 这 种 想法 总 结 为 : “不 成 熟 的 优化 是 所 有 罪恶 之 
源 。”Knuth 为 这 句 话 加 上 了 一 个 定语 “在 编程 领域 中 (或 者 至 少 是 大 部 分 罪恶 ) ”。 另 外 ， 如 果 
降低 成 本 带 来 的 效益 并 不 明显 ， 那 么 对 运行 时 间 的 改进 就 不 值得 了 。 例 如 ， 如 果 一 个 程序 所 需 的 运 
行 时 间 只 是 一 瞬间 而 已 ,那么 即使 是 将 它 的 速度 提高 十 倍 也 是 无 关 紧 要 的 。 即 使 程序 的 运行 需要 
好 几 分 钟 ， 实 现 并 调试 一 个 新 算法 所 需要 的 时 间 也 可 能 会 大 大 超过 直接 运行 一 个 稍微 慢 一 点 的 算 
法 一 一 这 种 时 候 就 应 该 让 计算 机 代劳 。 更 糟糕 的 情况 是 你 可 能 化 了 大 量 的 时 间 和 心血 去 实现 一 个 理 
论 上 能 够 改进 程序 的 想法 ， 但 实际 上 什么 也 没 发 生 。 

在 编程 领域 中 ， 第 二 常见 的 错误 或 许 是 完全 忽略 了 程序 的 性 能 。 较 快 的 算法 一 般 都 比 暴 力 算法 
更 复杂 ， 所 以 很 多 人 宁可 使 用 较 慢 的 算法 也 不 愿 应 付 复杂 的 代码 。 但 是 ， 几 行 优秀 的 代码 有 时 能 够 
给 你 带 来 巨大 的 收益 。 许 多 人 在 使 用 平方 级 别 的 暴力 算法 去 解决 问题 的 育 目 等 待 中 浪费 了 大 量 的 时 
间 ， 但 实际 上 线性 级 别 或 是 线性 对 数 级 别 的 算法 能 够 在 几 分 之 一 的 时 间 内 完成 任务 。 当 我 们 需要 处 
理 大 规模 问题 时 ， 通 常 ， 除 了 寻找 更 好 的 算法 之 外 我 们 别 无 选择 。 

我 们 将 使 用 本 节 所 述 的 各 种 方法 来 评估 算法 对 内 存 的 使 用 ， 并 在 多 个 成 本 模型 下 对 算法 进行 数 
学 分 析 从 而 得 到 相应 的 近似 函数 ， 然 后 根据 近似 函数 提出 对 算法 所 需 的 运行 时 间 的 增长 数量 级 的 猜 
想 并 通过 实验 验证 它们 。 改 进程 序 ， 使 之 更 加 清晰 、 高 效 和 优雅 应 该 是 我 们 一 贯 的 目标 。 如 果 你 在 





图 答疑 


为 什么 不 用 StdRandom 生成 随机 数 来 代替 1Mints.txt ? 

在 开发 中 ， 这 样 做 能 够 使 调试 代码 和 重复 实验 更 简单 。 每 次 调用 StdRandom 都 会 产生 不 同 的 值 ， 
所 以 修正 一 个 bug 之 后 并 再 次 运行 程序 可 能 并 不 能 测试 这 次 修正 ! 可 以 使 用 StdRandom 中 的 
initialize() 方法 来 解决 这 个 问题 ， 但 1Mints.txt 类 参考 文件 能 够 使 添加 测试 用 例 变 得 更 容易 。 另 
外 ， 不 同 的 程序 员 还 能 够 比较 程序 在 不 同 计算 机 上 的 性 能 而 不 必 担 心 输入 模型 的 不 同 。 只 要 你 的 程 
序 已 经 调试 完毕 上 且 你 已 经 大 致 了 解 了 它 的 性 能 ， 当 然 有 必要 用 随机 数据 测试 它 。 例 如 ，DoublingTest 
和 DoublingRatio 使 用 的 就 是 这 种 方式 。 

问 ”我 在 计算 机 上 运行 了 DoublingRatio， 但 我 得 到 的 结果 和 书 上 的 不 一 致 。 有 些 比例 的 收敛 值 并 不 是 8， 
为 什么 ? 

这 就 是 为 什么 我 们 在 1.4.7 节 中 讨论 了 注意 事项 。 最 可 能 的 情况 是 你 计算 机 上 的 操作 系统 在 实验 进行 
中 还 开小差 去 干 了 点 儿 别 的 活 儿 。 消 除 这 种 问题 的 一 种 方式 是 花 更 多 时 间 做 更 多 次 实验 。 比 如 ， 可 
以 修改 DoublingTest， 让 它 对 于 每 个 NN 都 进行 1000 次 实验 ， 这 样 对 于 每 个 X 它 都 能 给 出 对 运行 时 间 
更 加 精确 的 估计 值 。 

问 ”在 近似 函数 的 定义 中 ，“ 随 着 NN 的 增 大 ”确切 的 意思 是 什么 ? 

答 AN)~g(N) 的 正式 定义 为 limw .sfN)/g(N)=1。 

问 ”我 还 见 到 过 其 他 表示 增长 的 数量 级 的 符号 ， 它 们 都 表示 什么 意思 ? 


只 可 
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使 用 最 广泛 的 记 法 是 “大 O”: 对 于 JN) 和 g(N)， 如 果 存 在 常数 c 和 No 使 得 对 于 所 有 N>N 都 有 
1 AN) 1 < cg(N)， 则 我 们 称 .ftN) 为 Ol(g(N))。 这 种 记 法 在 描述 算法 性 能 的 渐进 上 限时 十 分 有 用 ， 这 
在 算法 理论 领域 是 十 分 重要 的 ， 但 它 在 预测 算法 性 能 或 是 比较 算法 时 并 没有 什么 作用 。 

上 题 中 ,为 什么 说 没有 作用 呢 ? 

主要 原因 是 它 描述 的 仅仅 是 运行 时 间 的 上 限 ， 而 算法 的 实际 性 能 可 能 要 好 得 多 。 一 个 算法 的 运行 时 
间 可 能 既是 OOV ) 也 是 ~aNlogN 的 。 因 此 ， 它 不 能 解释 类 似 倍率 实验 等 测试 ( 请 见 1.4.6 节 命 题 C ) 。 

那 为 什么 “大 0” 符 号 的 应 用 非常 广泛 呢 ? 

因为 它 简化 了 对 增长 数量 级 的 上 限 的 研究 ， 甚 至 也 适用 于 一 些 无 法 进行 精确 分 析 的 复杂 算法 。 另 
外 ， 它 还 可 以 和 计算 理论 中 用 于 将 算法 按照 它们 在 最 坏 情况 下 的 性 能 分 类 的 “大 Omega” 和 “大 

Theta” 符 号 一 起 使 用 。 如 果 存 在 常数 c 和 Nu 使 得 对 于 N>No 都 有 1 AN) | > cg(N)， 则 我 们 称 .XN) 
为 2(g( 和 N))。 如 果 .fN) 既是 O(g(N)) 也 是 Q(g(N))， 则 我 们 称 .RN) 为 9(g(N))。“ 大 Omega” 记 法 通 
常用 来 表示 最 坏 情况 下 的 性 能 下 限 ， 而 “大 Theta” 记 法 则 通常 用 于 描述 算法 的 最 优 性 能 ， 即 不 存 
在 有 更 好 的 最 坏 情况 下 的 渐进 增长 数量 级 的 算法 ,算法 的 最 优 性 显然 是 实际 应 用 中 值得 考虑 的 一 点 ， 
但 你 会 看 到 ， 还 有 其 他 许多 因素 需要 考虑 。 

渐进 性 能 的 上 限 难道 不 重要 吗 ? 

重要 ， 但 我 们 希望 讨论 的 是 给 定 成 本 模型 下 所 有 语句 执行 的 准确 频率 ， 因 为 它们 能 够 提供 更 多 关于 
算法 性 能 的 信息 , 而 且 从 我 们 所 讨论 的 算法 中 获取 这 些 频 率 是 可 能 的 。 例如, 我 们 可 以 说 “ThreeSum 
访问 数组 的 次 数 为 ~ N/2”， 以 及 “在 最 坏 情况 下 cnt++ 执行 的 次 数 为 ~ N/6”， 它 们 虽然 有 些 宛 
长 但 给 出 的 信息 比 “ThreeSum 的 运行 时 间 为 OOV)” 要 多 得 多 。 

问 ” 当 一 个 算法 的 运行 时 间 的 增长 数量 级 为 NogN 时 ， 根 据 双 倍 测试 会 得 到 它 的 运行 时 间 为 ~ aN 的 猜想 
(其 中 a 为 常数 ) 。 这 有 问题 吗 ? 

需要 注意 的 是 ， 我 们 不 能 根据 实验 数据 推测 它们 所 符合 的 某 个 特定 的 数学 模型 。 但 如 果 我 们 只 是 在 
预测 性 能 , 这 并 不 是 什么 问题 。 例 如 , 当 N 在 16 000 到 32 000 之 间 时 , 14N 和 NlgN 的 图 像 非常 接近 。 
这 些 数据 同时 与 两 条 曲线 吻合 。 随 着 N 的 增 大 ， 两 条 曲线 更 为 接近 。 想 要 用 实验 来 检验 一 个 算法 的 
运行 时 间 是 线性 对 数 级 别 而 非 线性 级 别 是 要 费 一 番 工 夫 的 。 

int[] a = new int[N] 表示 X 次 数组 访问 吗 ( 所 有 数组 元 素 均 会 被 初始 化 为 0) ? 

大 多 数 情况 下 是 的 ， 我 们 在 本 书 中 也 是 这 样 假设 的 ， 不 过 复杂 编译 器 的 实现 会 在 遇 到 大 型 稀 玻 数组 
时 尽力 避免 这 种 开销 。 
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1.4.1 证 明 从 X 个 数 中 取 三 个 整数 的 不 同 组 合 的 总 数 为 NN - 1)(N -2) /6。 提示: 使 用 数学 归纳 法 。 
1.4.2 ”修改 ThreeSum， 正 确 处 理 两 个 较 大 的 int 值 相 加 可 能 溢出 的 情况 。 
1.4.3 ”修改 DoublingTest， 使 用 StdDraw 产生 类 似 于 正文 中 的 标准 图 像 和 对 数 图 像 ， 根 据 需 要 调整 比例 
使 图 像 总 能 够 充满 窗口 的 大 部 分 区 域 。 
1.4.4 参照 表 1.4.4 为 TwoSum 建立 一 张 类 似 的 表格 。 
1.4.5 给 出 下 面 这 些 量 的 近似 : 
a.N+1l 
b.1+1/N 
c. (1+1/N)(1+2/N) 
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d.2N-ISNMHN 
e. lge(2N)lgN 
f lg(NV +1)lgN 
g.N'™/2™ 
1.4.6 ”给 出 以 下 代码 段 的 运行 时 间 的 增长 数量 级 ( 作为 N 的 函数 ) : 
aint sum = 0; 
for Gnt n= N; ns 0% n /= 2) 
forCint 1 = 0; i < ni i++) 
SUm++; 
b.int sum = 0; 
for KINE NN sds 1 NN 
for (Cint j = 0; j < Ti j++) 


[> 
己 
Co 


SUum++; 

c. int sum = 0; 
For (Cin 1 = 1 1 NeW zs 2) 
for (Cint j = 0; j < Ni j++) 


SUM++; 


1.4.7 以 统计 涉及 输入 数字 的 算术 操作 ( 和 比较 ) 的 成 本 模型 分 析 ThreeSum。 
1.4.8 编写 一 个 程序 ， 计 算 输 入 文件 中 相等 的 整数 对 的 数量 。 如 果 你 的 第 一 个 程序 是 平方 级 别 的 ， 请 继 
续 思 考 并 用 Array.sort(0) 给 出 一 个 线性 对 数 级 别 的 解答 。 
1.4.9 已 知 由 倍率 实验 可 得 某 个 程序 的 时 间 倍 率 为 2 且 问 题 规模 为 Ne 时 程序 的 运行 时 间 为 7， 给 出 一 
个 公式 预测 该 程序 在 处 理 规模 为 N 的 问题 时 所 需 的 运行 时 间 。 
1.4.10 ”修改 二 分 查找 算法 ， 使 之 总 是 返回 和 被 查找 的 键 匹配 的 索引 最 小 的 元 素 〈 且 仍 然 能 够 保证 对 数 
级 别 的 运行 时 间 ) 。 
1.4.11 为 StaticSETofInts ( 请 见 表 1.2.15 ) 添加 一 个 实例 方法 howMany()， 找 出 给 定 键 的 出 现 次 数 
且 在 最 坏 情况 下 所 需 的 运行 时 间 和 logN 成 正比 。 
1.4.12 ”编写 一 个 程序 ， 有 序 打印 给 定 的 两 个 有 序数 组 (含有 N 个 int 值 ) 中 的 所 有 公共 元 素 ， 程 序 在 
最 坏 情 况 下 所 需 的 运行 时 间 应 该 和 YX 成 正比 。 
1.4.13 ”根据 正文 中 的 假设 分 别 给 出 表示 以 下 数据 类 型 的 一 个 对 象 所 需 的 内 存量 : 
a. Accumulator 
b. Transaction 
c. FijxedCapacityStackOofStrings， 其 容量 为 C 且 含 有 N 个 元 素 
d. Point2D 
e. IntervallD 
f. Interval2D 
209 g. Double 


图 提高 是 


1.4.14 4-sum。 为 4-sum 设计 一 个 算法 。 
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1.4.15 ”快速 3-sum。 作 为 热身 ,使 用 一 个 线性 级 别 的 算法 ( 而 非 基 于 二 分 查找 的 线性 对 数 级 别 的 算法 ) 
实现 TwoSumFaster 来 计算 已 排序 的 数组 中 和 为 0 的 整数 对 的 数量 。 用 相同 的 思想 为 3-sum 问题 
给 出 一 个 平方 级 别 的 算法 。 

1.4.16 ”最 接近 的 一 对 (一 维 )。 编 写 一 个 程序 ， 给 定 一 个 含有 NN 个 double 值 的 数组 a[] ， 在 其 中 找到 
一 对 最 接近 的 值 : 两 者 之 差 ( 绝对 值 ) 最 小 的 两 个 数 。 程 序 在 最 坏 情 况 下 所 需 的 运行 时 间 应 该 
是 线性 对 数 级 别 的 。 

1.4.17 最 过 远 的 一 对 (一 维 )。 编 写 一 个 程序 ， 给 定 一 个 含有 NN 个 double 值 的 数组 a[] ， 在 其 中 找到 
一 对 最 逐 远 的 值 ， 两 者 之 差 ( 绝对 值 ) 最 大 的 两 个 数 。 程 序 在 最 坏 情况 下 所 需 的 运行 时 间 应 该 
是 线性 级 别 的 。 

1.4.18 ”数组 的 局 部 最 小 元 素 。 编 写 一 个 程序 ， 给 定 一 个 含有 NN 个 不 同 整 数 的 数组 ， 找 到 一 个 局 部 最 
小 元 素 : 满足 a[i]<a[i - 1]， 且 a[i 让 <a[i+1] 的 索引 i。 程 序 在 最 坏 情况 下 所 需 的 比较 次 数 
为 ~ 2lgN。 

答 : 检查 数组 的 中 间 值 a[N/2] 以 及 和 它 相 邻 的 元 素 a[N/2-1] 和 a[N/2+1] 。 如 果 a[N/2] 是 一 
个 局 部 最 小 值 则 算法 终止 ;否则 则 在 较 小 的 相 邻 元 素 的 半边 中 继续 查找 。 

1.4.19 矩阵 的 局 部 最 小 元 素 。 给 定 一 个 含有 N 个 不 同 整数 的 NxN 数 组 a[]。 设 计 一 个 运行 时 间 和 NN 
成 正比 的 算法 来 找 出 一 个 局 部 最 小 元 素 : 满足 a[i] [j]<a[i+1][j]、a[i][j]<a[i] [j+1]、 
a[i] [j]<a[i-1][j] 以 及 a[i][j]<a[i][j-1] 的 索引 1 和 jj。 程 序 的 运行 时 间 在 最 坏 情 况 下 应 
该 和 成 正比 。 

1.4.20 双 调 查找 。 如 果 一 个 数组 中 的 所 有 元 素 是 先 递 增 后 递减 的 ， 则 称 这 个 数组 为 双 调 的 。 编 写 一 个 
程序 ， 给 定 一 个 含有 X 个 不 同 int 值 的 双 调 数组 ， 判 断 它 是 否 含有 给 定 的 整数 。 程 序 在 最 坏 情 
况 下 所 需 的 比较 次 数 为 ~ 3lgN。 

1.4.21 无 重复 值 之 中 的 二 分 查找 。 用 二 分 查找 实现 StaticSETofInts (请 见 表 1.2.15 ) ， 保 证 containsO) 
的 运行 时 间 为 ~lgR， 其 中 为 参数 数组 中 不 同 整数 的 数量 。 

1.4.22 仅 用 加 减 实现 的 二 分 查找 (Mihai Patrascu ) 。 编 写 一 个 程序 ， 给 定 一 个 含有 NN 个 不 同 int 值 的 
按照 升序 排列 的 数组 ， 判 断 它 是 否 含有 给 定 的 整数 。 只 能 使 用 加 法 和 减法 以 及 常数 的 额外 内 存 
空间 。 程 序 的 运行 时 间 在 最 坏 情况 下 应 该 和 logN 成 正比 。 

答 : 用 斐 波 纳 契 数 代替 2 的 寡 ( 二 分 法 ) 进 行 查找 。 用 两 个 变量 保存 Fi 和 并 在 [i, 计 区 之 间 查 找 。 
在 每 一 步 中 ， 使 用 减法 计算 .,， 检 查 itF, 处 的 元 素 ， 并 根据 结果 将 搜索 范围 变 为 [i, 计 R_s] 或 
[tbrz, HER]s 

1.4.23 分数 的 二 分 查找 。 设 计 一 个 算法 ,使 用 对 数 级 别 的 比较 次 数 找 出 有 理 数 pg， 其 中 0<p<g<N， 比 
较 形式 为 给 定 的 数 是 否 小 于 x? 提示 : 两 个 分 母 均 小 于 N 的 有 理 数 之 差 不 小 于 LV 。 

1.4.24 ” 扎 鸡蛋 。 假 设 你 面前 有 一 栋 N 层 的 大 楼 和 许多 鸡蛋 ,假设 将 鸡蛋 从 下 层 或 者 更 高 的 地 方 扔 下 鸡 
借 才 会 控 碎 ， 否 则 则 不 会 。 首 先 ， 设 计 一 种 策略 来 确定 五 的 值 ， 其 中 扔 ~lgN 次 鸡蛋 后 摔 碎 的 鸡 
蛋 数量 为 ~igN， 人 然后 想 办 法 将 成 本 降低 到 ~21gF。 

1.4.25 ” 扔 两 个 鸡蛋 。 和 上 一 题 相同 的 问题 ,但 现在 假设 你 只 有 两 个 鸡蛋 ， 而 你 的 成 本 模型 则 是 扔 鸡蛋 
的 次 数 。 设 计 一 种 策略 ， 最 多 扔 2?VN 次 鸡蛋 即 可 判断 出 瓦 的 值 ， 然 后 想 办 法 把 这 个 成 本 降低 到 
~cVF 次 。 这 和 查找 命中 (鸡蛋 完好 无 损 ) 比 未 命中 ( 鸡蛋 被 摔 碎 ) 的 成 本 小 得 多 的 情形 类 似 。 

1.4.26 三 点 共 线 。 假设 有 一 个 算法 ,接受 平面 上 的 NW 个 点 并 能 够 返回 在 同一 条 直线 上 的 三 个 点 的 组 数 。 
证 明 你 能 够 用 这 个 算法 解决 3-sum 问题 。 强 烈 提 示 : 使 用 代数 证 明 当 上 且 仅 当 a+b+c=0 时 (a, a”)、 
(b, b ) 和 (c, c) 在 同一 条 直线 上 。 
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1.4.27 


1.4.28 


1.4.29 


1.4.30 


1.4.31 


1.4.32 


1.4.33 


1.4.34 


1.4.35 


1.4.36 


两 个 栈 实 现 的 队列 。 用 两 个 栈 实 现 一 个 队列 ， 使 得 每 个 队列 操作 所 需 的 堆栈 操作 均 摊 后 为 一 个 
常数 。 提 示 : 如 果 将 所 有 元 素 压 人 栈 再 弹出 ， 它 们 的 顺序 就 被 颠倒 了 。 如 果 再 次 重复 这 个 过 程 ， 
它们 的 顺序 则 会 复原 。 

一 个 队列 实现 的 栈 。 使 用 一 个 队列 实现 一 个 栈 , 使 得 每 个 栈 操作 所 需 的 队列 操作 数量 为 线性 级 别 。 
提示 : 要 删除 一 个 元 素 ， 将 队列 中 的 所 有 元 素 一 一 出 列 再 人 列 ， 除 了 最 后 一 个 元 素 ， 应 该 将 它 
删除 并 返回 ( 这 种 方法 的 确 非常 低 效 ) 。 

两 个 栈 实现 的 steque。 用 两 个 栈 实现 一 个 steque ( 请 见 练习 1.3.32 ) ， 使 得 每 个 steque 操作 所 需 
的 栈 操 均 摊 后 为 一 个 常数 。 

一 个 栈 和 一 个 steque 实现 的 双向 队列 。 使 用 一 个 栈 和 steque 实现 一 个 双向 队列 ( 请 见 练习 1.3.32 ) ， 
使 得 双向 队列 的 每 个 操作 所 需 的 栈 和 steque 操作 均 摊 后 为 一 个 常数 。 

三 个 栈 实现 的 双向 队列 。 使 用 三 个 栈 实 现 一 个 双向 队列 ， 使 得 双向 队列 的 每 个 操作 所 需 的 栈 操 
作 均 摊 后 为 一 个 常数 。 

均 摊 分 析 。 请 证 明 , 对 一 个 基于 大 小 可 变 的 数组 实现 的 空 栈 的 M 次 操作 访问 数组 的 次 数 和 M 成 正比 。 
32 位 计算 机 中 的 内 存 需求 。 给 出 32 位 计算 机 中 Integer 、Date、Counter 、int[] 、double[]、 
double[] [] 、String、Node 和 Stack (链表 表示 ) 对 象 所 需 的 内 存 ， 设 引用 需要 4 字 节 ， 表 示 
对 象 开销 为 8 字 节 ， 所 需 内 存 均 会 被 填充 为 4 字 节 的 倍数 。 

热 还 是 冷 。 你 的 目标 是 猜 出 1 到 X 之 间 的 一 个 秘密 的 整数 。 每 次 猜 完 一 个 整数 后 ， 你 会 知道 你 的 
猜测 和 这 个 秘密 整数 是 否 相等 〈 如 果 是 则 游戏 结束 ) 。 如 果 不 相等 ， 你 会 知道 你 的 猜测 相 比 上 一 
次 猜测 距离 该 秘密 整数 是 比较 热 ( 接近 ) 还 是 比较 冷 (远离 ) 。 设 计 一 个 算法 在 ~2lgN 之 内 找到 
这 个 秘密 整数 ， 然 后 再 设计 一 个 算法 在 ~llgN 之 内 找到 这 个 秘密 整数 。 

下 压 栈 的 时 间 成 本 。 解 释 下 表 中 的 数据 ， 它 显示 了 各 种 下 压 栈 的 实现 的 一 般 时 间 成 本 ， 其 中 成 
本 模型 会 同时 记录 数据 引用 的 数量 ( 指向 被 压 人 栈 之 中 的 数据 的 引用 ， 指 向 的 可 能 是 数组 ， 也 
可 能 是 某 个 对 象 的 实例 变量 ) 和 被 创建 的 对 象 数量 。 


下 压 栈 〈 的 各 种 实现 ) 的 时 间 成 本 


压 入 N 个 int 值 的 成 本 
结 3 
和 a 数据 的 引用 创建 的 对 象 

int 2N N 

基于 链表 
Integer 3N 2N 
i ~SN 1 

基于 大 小 可 变 的 数组 by 
Integer ~SN 全 


下 压 栈 的 空间 成 本 。 解 释 下 表 中 的 数据 ， 它 显示 了 各 种 下 压 栈 的 实现 的 一 般 空间 成 本 ， 其 中 链 
表 的 节点 为 一 个 静态 的 嵌 套 类 ， 从 而 避免 非 静态 嵌 套 类 的 开销 。 


下 压 栈 (的 各 种 实现 ) 的 空间 成 本 


数据 结构 元 素 类 型 N 个 int 值 所 需 的 空间 ( 字 节 ) 
i ~32N 
基于 链表 Ts 3 
Integer ~ S56N 
基于 大 小 可 变 的 数组 wn ~ 4N 到 ~ 16N 之 间 


Integer ~ 32N 到 ~ 56N 之 间 
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自动 装 箱 的 性 能 代价 。 通 过 实验 在 你 的 计算 机 上 计算 使 用 自动 装 箱 和 自动 拆 箱 所 付出 的 性 能 代 
价 。 实 现 一 个 FixedCapacityStack0fInts， 并 使 用 类 似 DoublingRatio 的 用 例 比较 它 和 泛 型 
FixedCapacityStack<Integer> 在 进行 大 量 push() 和 popQ 操作 时 的 性 能 。 
3-sum 的 初级 算法 的 实现 。 通 过 实验 评估 以 下 ThreeSum 内 循环 的 实现 性 能 : 
for (int i = 0; i < N; i++) 

for (Cint j] = 0; j < Ni j++) 

for (Cint k = 0; k < N; k++) 
i 
if (a[i] + a[j] + a[k] == 0) 
Cnt++; 


为 此 实现 另 一 个 版 本 的 DoublingTest， 计 算 该 程序 和 ThreeSum 的 运行 时 间 的 比例 。 
改进 倍率 测试 的 精度 。 修 改 DoublingRatio， 使 它 接受 另 一 个 命令 行 参 数 来 指定 对 于 每 个 W 值 调 
用 timeTrial1Q 方 法 的 次 数 。 用 程序 对 每 个 执行 10、100 和 1000 遍 实验 并 评估 结果 的 准确 程度 。 
随机 输入 下 的 3-sum 问题 。 猜 测 找 出 N 个 随机 int 值 中 和 为 0 的 整数 三 元 组 的 数量 所 需 的 时 间 
并 验证 你 的 猜想 。 如 果 你 擅长 数学 分 析 ， 请 为 此 问题 给 出 一 个 合适 的 数学 模型 ， 其 中 所 有 值 均 
匀 地 分 布 在 -M 到 M 之 间 ， 且 M 不 能 是 一 个 小 整数 。 

运行 时 间 。 使 用 DoublingRatio 估计 在 你 的 计算 机 上 用 TwoSumFast、TwoSum、ThreeSumFast 以 
及 ThreeSum 处 理 一 个 含有 100 万 个 整数 的 文件 所 需 的 时 间 。 

问题 规模 。 设 在 你 的 计算 机 上 用 TwoSumFast、TwoSum 、ThreeSumFast 以 及 ThreeSum 能 够 处 理 
的 问题 的 规模 为 2 x10 个 整数 。 使 用 Doub lingRatio 估计 P 的 最 大 值 。 

大 小 可 变 的 数组 与 链表 。 通 过 实验 验证 对 于 栈 来 说 基于 大 小 可 变 的 数组 的 实现 快 于 基于 链表 的 
实现 的 猜想 ( 请 见 练习 1.4.35 和 练习 1.4.36 ) 。 为 此 实现 另 一 个 版 本 的 DoublingRatio， 计 算 两 
个 程序 的 运行 时 间 的 比例 。 

生日 问题 。 编 写 一 个 程序 ， 从 命令 行 接受 一 个 整数 NN 作为 参数 并 使 用 StdRandom.uniform() 生 
成 一 系列 0 到 N-1 之 间 的 随机 整数 。 通 过 实验 验证 产生 第 一 个 重复 的 随机 数 之 前 生成 的 整数 数 
量 为 ~ VrV/2 。 

优惠 券 收集 问题 。 用 和 上 一 题 相同 的 方式 生成 随机 整数 。 通 过 实验 验证 生成 所 有 可 能 的 整数 值 
所 需 生 成 的 随机 数 总 量 为 ~NHw。 
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为 了 说 明 我 们 设计 和 分 析 算 法 的 基本 方法 ， 我 们 现在 来 学 习 一 个 具体 的 例子 。 我 们 的 目的 是 强 
调 以 下 几 点 8 

口 优秀 的 算法 因为 能 够 解决 实际 问题 而 变 得 更 为 重要 ，; 

口 高 效 算法 的 代码 也 可 以 很 简单 ; 

口 理解 某 个 实现 的 性 能 特点 是 一 项 有 趣 而 令 人 满足 的 挑战 ; 

口 在 解决 同一 个 问题 的 多 种 算法 之 间 进 行 选择 时 ， 科 学 方法 是 一 种 重要 的 工具 ; 

口 迭代 式 改进 能 够 让 算法 的 效率 越 来 越 高 。 

我 们 会 在 本 书 中 不 断 巩 固 这 些 主题 思想 。 本 节 中 的 例子 是 一 个 原型 ， 它 将 会 为 我 们 用 相同 的 方 
法 解决 许多 其 他 问题 打下 坚实 的 基础 。 

我 们 将 要 讨论 的 问题 并 非 无 足 轻重 ， 它 是 一 个 非常 基础 的 计算 性 问题 ， 而 我 们 开发 的 解决 方案 
将 会 用 于 多 种 实际 应 用 之 中 ， 从 物理 化 学 中 的 渗流 到 通信 网 络 中 的 连通 性 等 。 我 们 首先 会 给 出 一 个 


简单 的 方案 ,然后 对 它 的 性 能 进行 研究 并 由 此 得 出 应 该 如 何 继续 改进 我 们 的 算法 。 
A 0。 1 2。 3。 和 
1.5.1 动态 连通 性 el 


首先 我 们 详细 地 说 明 一 下 问题 : 问题 的 输入 是 一 列 整数 
对 ， 其 中 每 个 整数 都 表示 一 个 某 种 类 型 的 对 象 ， 一 对 整数 p 43 
q 可 以 被 理解 为 “p 和 9 是 相连 的 ”。 我 们 假设 “相连 ”是 本 
一 种 对 等 的 关系 ， 这 也 就 意味 着 它 具 有 : 
口 自 反 性 : p 和 p 是 相连 的 ; 6 
口 对 称 性 : 如 果 p 和 9q 是 相连 的 ,那么 q 和 p 也 是 相连 的 ; 
口 传递 性 : 如 果 p 和 9q 是 相连 的 且 q 和 r 是 相连 的 ， 
那么 p 和 r 也 是 相连 的 。 2 1 
对 等 关系 能 够 将 对 象 分 为 多 个 等 价 类 。 在 这 里 ， 当 且 仅 
当 两 个 对 象 相连 时 它们 才 属 于 同一 个 等 价 类 。 我 们 的 目标 是 
编写 一 个 程序 来 过 滤 掉 序列 中 所 有 无 意义 的 整数 对 ( 两 个 整 ee 
数 均 来 自 于 同一 个 等 价 类 中 ) 。 换 句 话说， 当 程 序 从 输入 中 
读 取 了 整数 对 p q 时 ， 如 果 已 知 的 所 有 整数 对 都 不 能 说 明 p 72 
和 9q 是 相连 的 ， 那 么 则 将 这 一 对 整数 写 和 到 输出 中 。 如 果 已 
知 的 数据 可 以 说 明 p 和 9q 是 相连 的 ， 那么 程序 应 该 忽略 p q 
这 对 整数 并 继续 处 理 输入 中 的 下 一 对 整数 。 图 1.5.1 用 一 个 
例子 说 明了 这 个 过 程 。 为 了 达到 所 期 望 的 效果 ， 我 们 需要 设 
计 一 个 数据 结构 来 保存 程序 已 知 的 所 有 整数 对 的 足够 多 的 信 / 
息 ， 并 用 它们 来 判断 一 对 新 对 象 是 否 是 相连 的 。 我 们 将 这 个 Pe Pe 
问题 通俗 地 叫做 动态 连通 性 问题 ,这 个 问题 可 能 有 以 下 应 用 。 
1.5.1.1 网 络 图 1.5.1 动态 连通 性 问题 ( 另 见 彩 插 ) 
输入 中 的 整数 表示 的 可 能 是 一 个 大 型 计算 机 网 络 中 的 计算 机 ， 而 整数 对 则 表示 网 络 中 的 连接 。 
这 个 程序 能 够 判定 我 们 是 否 需 要 在 p 和 9q 之 间架 设 一 条 新 的 连接 才能 进行 通信 ， 或 是 我 们 可 以 通过 
已 有 的 连接 在 两 者 之 间 建 立 通信 线路 ; 或 者 这 些 整数 表示 的 可 能 是 电子 电路 中 的 触 点 ， 而 整数 对 表 
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示 的 是 连接 触 点 之 间 的 电路 ; 或 者 这 些 整数 表示 的 可 能 是 社交 网 络 中 的 人 ， 而 整数 对 表示 的 是 朋友 
关系 。 在 此 类 应 用 中 ， 我 们 可 能 需要 处 理 数 百 万 的 对 象 和 数 十 亿 的 连接 。 
1.5.1.2 ”变量 名 等 价 性 

某 些 编程 环境 允许 声明 两 个 等 价 的 变量 名 ( 指向 同一 个 对 象 的 多 个 引用 ) 。 在 一 系列 这 样 的 声 
明之 后 ， 系 统 需 要 能 够 判别 两 个 给 定 的 变量 名 是 否 等 价 。 这 种 较 早出 现 的 应 用 ( 如 FORTRAN 语言 
推动 了 我 们 即将 讨论 的 算法 的 发 展 。 
1.5.1.3 ”数学 集合 

在 更 高 的 抽象 层次 上 ， 可 以 将 输入 的 所 有 整数 看 做 属于 不 同 的 数学 集合 。 在 人 处理 一 个 整数 对 p 
q 时 ， 我们 是 在 判断 它们 是 否 属 于 相同 的 集合 。 如 果 不 是 ， 我 们 会 将 p 所 属 的 集合 和 9q 所 属 的 集合 
归并 ， 最终 所 有 的 整数 属于 同一 个 集合 。 

为 了 进一步 限定 话题 ， 我 们 会 在 本 节 以 下 内 容 中 使 用 网 络 方面 的 术语 ， 将 对 象 称 为 触 点 ,将 整 
数 对 称 为 连接 ， 将 等 价 类 称 为 连通 分 量 或 是 简称 分 量 。 简 单 起 见 ， 假 设 我 们 有 用 0 到 N-1 的 整数 所 
表示 的 个 触 点 。 这 样 做 并 不 会 降低 算法 的 通用 性 ， 因 为 我 们 在 第 3 章 中 将 会 学 习 一 组 高 效 的 算法 ， 
将 整数 标识 符 和 任意 名 称 关联 起 来 。 

图 1.5.2 是 一 个 较 大 的 例子 ， 意 在 说 明 连 通 性 问题 的 难度 。 你 很 快 就 可 以 找到 图 左 侧 中 部 一 个 
只 含有 一 个 触 点 的 分 量 ， 以 及 左下 方 一 个 含有 5 个 触 点 的 分 量 ， 但 让 你 验证 其 他 所 有 和 触 点 是 否 都 是 
相互 连通 的 可 能 就 有 些 困难 了 。 对 于 程序 来 说 ， 这 个 任务 更 加 困难 ， 因 为 它 所 处 理 的 只 有 触 点 的 名 
字 和 连接 而 并 不 知道 触 点 在 图 像 中 的 几何 位 置 。 我 们 如 何 才能 快速 知道 这 种 网 络 中 任意 给 定 的 两 个 
触 点 是 否 相 连 呢 ? 





图 1.5.2 中 等 规模 的 连通 性 问题 举例 (625 个 触 点 ，900 条 边 ，3 个 连通 分 量 ) 
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我 们 在 设计 算法 时 面 对 的 第 一 个 任务 就 是 精确 地 定义 问题 。 我 们 希望 算法 解决 的 问题 越 大 ， 
它 完成 任务 所 需 的 时 间 和 空间 可 能 就 越 多 。 我 们 不 可 能 预先 知道 这 其 间 的 量化 关系 ,而且 我 们 通 
常 只 会 在 发 现 解决 问题 很 困难 ， 或 是 代价 巨大 ， 或 是 在 幸运 地 发 现 算法 所 提供 的 信息 比 原 问 题 所 
需要 的 更 加 有 用 时 修改 问题 。 例 如 ， 连 通 性 问题 只 要 求 我 们 的 程序 能 够 判别 给 定 的 整数 对 p 9q 是 
否 相 连 ， 但 并 没有 要 求 给 出 两 者 之 间 的 通路 上 的 所 有 连接 。 这 样 的 要 求 会 使 问题 更 加 困难 ， 并 得 
到 另 一 组 不 同 的 算法 ， 我 们 会 在 4.1 节 中 学 习 它 们 。 

为 了 说 明 问 题 ， 我 们 设计 了 一 份 API 来 封装 所 需 的 基本 操作 : 初始 化 、 连 接 两 个 触 点 、 判 断 
包含 某 个 触 点 的 分 量 、 判 断 两 个 触 点 是 否 存在 于 同一 个 分 量 之 中 以 及 返回 所 有 分 量 的 数量 。 详 细 的 
API 如 表 1.5.1 所 示 。 


表 1.5.1 union-find 算法 的 API 
public class UF 


UFCint N) 以 整数 标识 (0 到 N-1 ) 初始 化 入 个 触 点 
void union(int p, int q) 在 p 和 9 之 间 添 加 一 条 连接 
int find(int p) p 所 在 的 分 量 的 标识 符 (0 到 N-1 ) 
boolean connected(int p, int q) 如 果 p 和 9q 存在 于 同一 个 分 量 中 则 返回 true 
int count() 连通 分 量 的 数量 


如 果 两 个 触 点 在 不 同 的 分 量 中 ，union() 操作 会 将 两 个 分 量 归并 。find(0) 操作 会 返回 给 定 
触 点 所 在 的 连通 分 量 的 标识 符 。connected() 操作 能 够 判断 两 个 触 点 是 否 存在 于 同一 个 分 量 之 
中 。count0 方法 会 返回 所 有 连通 分 量 的 数量 。 一 开始 我 们 有 个 分 量 ， 将 两 个 分 量 归并 的 每 次 
union() 操作 都 会 使 分 量 总 数 减 一 。 

我 们 马上 就 将 看 到 ， 为 解决 动态 连通 性 问题 设计 算法 的 任务 转化 为 了 实现 这 份 API。 所 有 的 实 
现 都 应 该 : 

口 定义 一 种 数据 结构 表示 已 知 的 连接 ; 

口 基于 此 数据 结构 实现 高 效 的 union()、find()、connected() 和 count() 方法 。 

众所周知 ， 数 据 结构 的 性 质 将 直接 影响 到 算法 的 效率 ， 因 此 数据 结构 和 算法 的 设计 是 紧密 相关 
的 。API 已 经 说 明 触 点 和 分 量 都 会 用 int 值 表 示 ， 所 以 我 们 可 以 用 一 个 以 触 点 为 索引 的 数组 id[] 
作为 基本 数据 结构 来 表示 所 有 分 量 。 我 们 将 使 用 分 量 中 的 某 个 触 点 的 名 称 作为 分 量 的 标识 符 ， 因 此 
你 可 以 认为 每 个 分 量 都 是 由 它 的 触 点 之 一 所 表示 的 。 一 开始 ， 我 们 有 X 个 分 量 ， 每 个 触 点 都 构成 了 
一 个 只 含有 它 自 己 的 分 量 ， 因 此 我 们 将 id[i] 的 值 初始 化 为 i， 其 中 i 在 0 到 N-1 之 间 。 对 于 每 个 
触 点 1， 我 们 将 findQ 方法 用 来 判定 它 所 在 的 分 量 所 需 的 信息 保存 在 id[i] 之 中 。connected() 
方法 的 实现 只 用 一 条 语句 find(p) == find(q)， 它 返回 一 个 布尔 值 ， 我 们 在 所 有 方法 的 实现 中 都 
会 用 到 connected0 方法。 

总 之 ,我们 的 起 点 就 是 算法 1.5。 我 们 维护 了 两 个 实例 变量 ， 一 个 是 连通 分 量 的 个 数 ， 一 个 是 
数组 id[] 。find() 和 union() 的 实现 是 本 节 剩 余 内 容 将 要 讨论 的 主题 。 


算法 1.5 ”union-find 的 实现 
public class UF 
{ 


private int[] id; // 分 量 id (以 触 点 作为 索引 ) 
private int count; // 分 量 数量 
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public UFCint N) 
{ // 初始 化 分 量 id 数 组 
count = N; 
id = new int[N]; 
for (int i1 = 0; i < N; i++) 
id[i] = 1i; 
} 
public int count() 
{ return count; } 
public boolean connected(int p, int q) 
{ return find(p) == find(q); } 
public int find(int p) 
public void union(int p, int q) 


omNoOoOnw 上 上当 


java UF < tinyUF .txt 


PNOPPAUAmUWw 


components 


// 请 见 1.5.2.1 节 用 例 (quick-find) 、1.5.2.3 节 用 例 (quick-union ) 和 算法 1.5 ( 加权 quick-union ) 


public static void main(String[] args) 
{ // 解决 由 StdIn 得 到 的 动态 连通 性 问题 

int N = StdIn.readInt(); 

UF uf = new UFCN) ; 

while (!StdIn.isEmpty()) 


// 读 取 触 点 数量 
// 初始 化 N 个 分 量 


{ 
int p = StdIn.readInt() ; 
int q = StdIn.readInt(); // 读 取 整数 对 
if (Cuf.connected(p，q)) continue; // 如 果 已 经 连通 则 忽略 
uf.union(p, q); // 归并 分 量 
StdOut.printin(p + " " + q); // 打印 连接 
Stdout.printlnCuf.count() + "components"); 


} 
} 


这 份 代码 是 我 们 对 UF 的 实现 。 它 维护 了 一 个 整 型 数组 id[] ， 使 得 findQO 对 于 处 在 同一 个 连通 分 


量 中 的 触 点 均 返 回 相 同 的 整数 值 。union() 方法 必须 保证 这 一 点 。 


为 了 测试 API 的 可 用 性 并 方便 开发 ， 我 们 在 main0) 方法 中 
包含 了 一 个 用 例 用 于 解决 动态 连通 性 问题 。 它 会 从 输入 中 读 取 NN 
值 以 及 一 系列 整数 对 ， 并 对 每 一 对 整数 调用 find0) 方法 : 如 果 
某 一 对 整数 中 的 两 个 触 点 已 经 连通 , 程序 会 继续 处 理 下 一 对 数据 ; 
如 果 不 连通 ， 程 序 会 调用 union0 方法 并 打印 这 对 整数 。 在 讨论 
实现 之 前 ,我 们 也 准备 了 一 些 测试 数据 ( 如 右 侧 的 代码 框 所 示 ) : 
文件 tinyUF.txt 含 有 10 个 触 点 和 11 条 连接 , 图 1.5.1 使 用 的 就 是 它 ; 
文件 mediumUF.txt 含 有 625 个 触 点 和 900 条 连接 , 如 图 1.5.2 所 示 ; 
例子 文件 largeUF.txt 含有 100 万 个 触 点 和 200 万 条 连接 。 我 们 的 
目标 是 在 可 以 接受 的 时 间 范 围 内 处 理 和 1largeUF.txt 规模 类 似 的 
输入 。 

为 了 分 析 算 法 ,我 们 将 重点 放 在 不 同 算法 访问 任意 数组 元 素 
的 总 次 数 上 。 我 们 这 样 做 相当 于 隐 式 地 猜测 各 种 算法 在 一 台 特 定 
的 计算 机 上 的 运行 时 间 在 这 个 量 乘 以 某 个 常数 的 范围 之 内 。 这 个 
猜想 基于 代码 ， 用 实验 验证 它 并 不 困难 。 我 们 将 会 看 到 ， 这 个 猜 
想 是 算法 比较 的 一 个 很 好 的 开始 。 


% more tinyUF .txt 
0 


OPOAONUONUOWOWPP 
NOPNOWPAUOUW 


% more mediumUF.txt 
625 

528 503 

548 523 


900 条 连接 

% more largeUF.txt 
1000000 

786321 134521 
696834 98245 


200 万 条 连接 
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union-find 的 成 本 模型 。 在 研究 实现 union-find 的 API 的 各 种 算法 时 ,我 们 统计 的 是 数组 的 访问 
次 数 (访问 任意 数组 元 素 的 次 数 ， 无 论 读 写 ) 。 


1.5.2 ”实现 

我 们 将 讨论 三 种 不 同 的 实现 ， 它 们 均 根 据 以 触 点 为 索引 的 id[] 数组 来 确定 两 个 触 点 是 否 存 
在 于 相同 的 连通 分 量 中 。 
1.5.2.1 quick-find 算法 

一 种 方法 是 保证 当 且 仅 当 id[p] 等 于 id[q] 时 p 和 q 是 连通 的 。 换 句 话 说， 在 同一 个 连通 分 
量 中 的 所 有 触 点 在 id[] 中 的 值 必须 全 部 相同 。 这 意味 着 connected(p，9) 只 需要 判断 id[p] == 
id[q] , 当 且 仅 当 p 和 q 在 同一 连通 分 量 中 该 语句 才 会 返回 true。 为 了 调用 unionCp，q) 确 保 这 一 点 ， 
我 们 首先 要 检查 它们 是 否 已 经 存在 于 同一 个 连通 分 量 之 中 。 如 果 是 我 们 就 不 需要 采取 任何 行动 ， 否 
则 我 们 面 对 的 情况 就 是 p 所 在 的 连通 分 量 中 的 所 有 触 点 的 id[] 值 均 为 同一 个 值 ， 而 q 所 在 的 连通 
分 量 中 的 所 有 触 点 的 id[] 值 均 为 另 一 个 值 。 要 将 两 个 分 量 合 二 为 一 ， 我 们 必须 将 两 个 集合 中 所 有 
触 点 所 对 应 的 id[] 元 素 变 为 同一 个 值 ， 如 表 1.5.2 所 示 。 为 此 ， 我 们 需要 遍历 整个 数组 ， 将 所 有 和 
id[p] 相等 的 元 素 的 值 变 为 id[q] 的 值 。 我 们 也 可 以 将 所 有 和 id[q] 相等 的 元 素 的 值 变 为 id[p] 
的 值 一 一 两 者 丝 可 ,根据 上 述 文字 得 到 的 find() 和 union0) 的 代码 简单 明了 , 如 下 面 的 代码 框 所 示 。 
图 1.5.3 显示 的 是 我 们 的 开发 用 例 在 处 理 测试 数据 tinyUF.txt 时 的 完整 轨迹 。 


id[] 
Co ol p) 所 河 桨 证 殉 本 十 误 乍 高 仍 河 
{ return id[p]; i 3 4 
public void union(int p, int q) | 
 // 将 p 和 q 归 并 到 相同 的 分 量 中 3 8 3 8 
int pID = find(p); 0128856789 


int qID = find(q); 


6 
人 如 果 p 和 q 已 经 在 相同 的 分 量 之 中 则 不 需要 采取 任何 行动 日 贡 冯 区 和 阁 5 六 咏 ' 导 
if (pID == qID) return: 


9 4 8 
// 将 p 的 分 量 重 命名 为 q 的 名 称 TT 
for (int i = 0; i < id.length; i++) 2 1 1 2 
if (id[i] == pID) id[i] = qID; 
COunt-- ; 0 1 1 8 8 5 5 pg 8 
} 8 8 
5-0 © 5 
quick-find 0118800788 
这 久 7 
表 1.5.2 quick-find 概览 OLTS8B800L88 
eh 6 让 1 
find() 方 法 正在 检查 id[5] 和 id[9] 11881 有 18sg 
[ 11 
59 1 8 Vr 
id[p] 和 id[q] 不 等 ， 因 此 union() 
union() 方 法 需要 要 将 所 有 的 1 修改 为 8 会 将 所 有 和 id[p] 相 等 的 元 素 的 值 均 
| . 、 改 为 id[q] 的 值 (加 粗 部 分 ) 
5 9 HLAG id[p] 和 id[q] 相 等 ， 不 需 
要 进行 任何 改动 


888 888 
图 1.5.3 quick-find 的 轨迹 
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1.5.2.2 quick-find 算法 的 分 析 
find() 操作 的 速度 显然 是 很 快 的 ， 因 为 它 只 需要 访问 id[] 数组 一 次 。 但 quick-find 算法 一 般 
无 法 处 理 大 型 问题 ， 因 为 对 于 每 一 对 输入 union() 都 需要 扫描 整个 id[] 数组 。 


命题 F。 在 quick-find 算法 中 ,每 次 find() 调用 只 需要 访问 数组 一 次 ， 而 归并 两 个 分 量 的 
union() 操作 访问 数组 的 次 数 在 (N+3) 到 (2N+1) 之 间 。 


证 明 。 由 代码 马上 可 以 知道 ,每 次 connected() 调用 都 会 检查 id[] 数组 中 的 两 个 元 素 是 否 相 等 ， 
即 会 调用 两 次 find0) 方法 。 归 并 两 个 分 量 的 union() 操作 会 调用 两 次 find()， 检查 id[] 数 
组 中 的 全 部 入 个 元 素 并 改变 它们 中 1 到 WN-l 个 元 素 的 值 。 


假设 我 们 使 用 quick-find 算法 来 解决 动态 连通 性 问题 并 且 最 后 只 得 到 了 一 个 连通 分 量 ， 那 么 这 
至 少 需要 调用 N-1 次 union()， 即 至 少 (N+3)(N-1) ~ 玉 次 数组 访问 一 一 我 们 马上 可 以 猜想 动态 连 
通 性 的 quick-find 算法 是 平方 级 别 的 。 将 这 种 分 析 推 广 我 们 可 以 得 到 ，quick-find 算法 的 运行 时 间 对 
于 最 终 只 能 得 到 少数 连通 分 量 的 一 般 应 用 是 平方 级 别 的 。 在 计算 机 上 用 倍率 测试 可 以 很 容易 验证 这 
个 猜想 ( 指导 性 的 例子 请 见 练习 1.5.23 ) 。 现 代 计 算 机 每 秒 钟 能 够 执行 数 亿 甚 至 数 十 亿 条 指令 ， 因 
此 如 果 六 较 小 的 话 这 个 成 本 并 不 是 很 明显 。 但 是 在 现代 应 用 中 我 们 也 很 可 能 需要 处 理 几 百 万 甚至 数 
十 亿 的 触 点 和 连接 ， 例 如 我 们 的 测试 文件 largeUF.txt。 如 果 你 还 不 相信 并 且 觉 得 自己 的 计算 机 足够 
快 , 请 使 用 quick-find 算法 找 出 largeUF.txt 中 所 有 整数 对 所 表示 的 连通 分 量 的 数量 。 结 论 无 可 争议 ， 
使 用 quick-find 算法 解决 这 种 问题 是 不 可 行 的 ， 我们 需要 寻找 更 好 的 算法 。 
1.5.2.3 quick-union 算法 

我 们 要 讨论 的 下 一 个 算法 的 重点 是 提高 union0 方法 的 速度 ， 它 和 quick-find 算法 是 互补 的 。 
它 也 基于 相同 的 数据 结构 一 一 以 触 点 作为 索引 的 id[] 数组 ， 但 我 们 赋予 这 些 值 的 意义 不 同 ， 我 们 
需要 用 它们 来 定义 更 加 复杂 的 结构 。 确 切 地 说 ， 每 个 触 点 所 对 应 的 id[] 元 素 都 是 同一 个 分 量 中 的 
另 一 个 触 点 的 名 称 〈 也 可 能 是 它 自 己 ) 一 一 我 们 将 这 种 联系 称 为 链接 。 在 实现 find() 方法 时 ,我 
们 从 给 定 的 触 点 开始 ， 由 它 的 链接 得 到 另 一 个 触 点 ， 再 由 这 个 触 点 的 链接 到 达 第 三 个 触 点 ， 如 此 继 
续 跟 随 着 链接 直到 到 达 一 个 根 触 点 , 即 链接 指向 自己 的 触 点 ( 你 将 会 看 到 , 这 样 一 个 触 点 必然 存在 ) 。 
当 且 仅 当 分 别 由 两 个 触 点 开始 的 这 个 过 程 到 达 


了 同一 个 根 触 点 时 它们 存在 于 同一 个 连通 分 量 private int find(int p) 
{ // 找 出 分 量 的 名 称 








之 中 。 为 了 保证 这 个 过 程 的 有 效 性 ， 我 们 需要 while (p 1= id[p]) p a id[p]; 
unionCp，q) 来 保证 这 一 点 。 它 的 实现 很 简单 return pi 

我 们 由 p 和 q 的 链接 分 别 找到 它们 的 根 蚀 点 ， ” 
然后 只 需 将 一 个 根 触 点 链接 到 另 一 个 即 可 将 一 史 ] 5 机 9 册 放 是 本 
个 分 量 重 命名 为 另 一 个 分 量 ， 因 此 这 个 算法 叫 int pRoot = findCp); 

做 quickrunfon。 和 刚才 一 样 ， 无 论 是 重 命 和。 Roo 人 


含有 Pp 的 分 量 还 是 重 命名 含有 9q 的 分 量 都 可 以 ， 
右 侧 的 这 段 实现 重 命名 了 p 所 在 的 分 量 。 图 1.5.5 和 

显示 了 quick-union 算法 在 处 理 tinyUF.txt 时 的 } 

轨迹 。 图 1.5.4 能 够 很 好 地 说 明 图 1.5.5( 见 1.5.2.4 

节 ) 中 的 轨迹 ， 我 们 接 下 来 要 讨论 的 就 是 它 。 guickrunion 


id[pRoot] = qRoot; 


id[] 用 父 链 接 的 方式 表示 了 一 片 森 林 








findQ 会 随 着 链接 到 达 根 触 点 
Gy 地 本 ”生生 计 名 站 关 六 省 多 
5 9 于 下 0 8 8 
(9) t t 
find(57) 即 为 find(9) 
id[id[id[5]]] 即 为 id[id[9]] 
[= 丰 迹 为 了 
人 机 有 hp union() 只 需要 修改 一 个 链接 
pq 信和 工 广 争 洒 硬 从 了 道光 
59 于 站 0 8 8 
8 


图 1.5.4 _ quick-union 算法 概述 


1.5.2.4 ”森林 的 表示 

quick-union 算法 的 代码 很 简洁 ， 但 有 些 难 以 理解 。 用 节点 〈 带 标签 的 圆圈 ) 表示 触 点 ， 用 从 一 个 
节点 到 另 一 个 节点 的 箭头 表示 链接 ， 由 此 得 到 数据 结构 的 图 像 表 示 使 我 们 理解 算法 的 操作 变 得 相对 容 
易 。 我 们 的 得 到 的 结构 是 树 一 一 从 技术 上 来 说 ，id[] 数组 用 父 链接 的 形式 表示 了 一 片 森林 。 为 了 简 
化 图 表 ， 我 们 常常 会 省 略 链 接 的 箭头 ( 因为 它们 的 指向 全 部 朝 上 ) 和 树 的 根 节点 中 指向 自己 的 链接 。 
tinyUF.txt 的 id[] 数组 所 对 应 的 森林 如 图 1.5.5 所 示 。 无 论 我 们 从 任何 触 点 所 对 应 的 节点 开始 跟随 链接 ， 
最 终 都 将 达到 含有 该 节点 的 树 的 根 节点 。 可 以 用 归纳 法 证 明 这 个 性 质 的 正确 性 : 在 数组 被 初始 化 之 后 ， 
每 个 节点 的 链接 都 指 回 它 自己 ; 如 果 在 某 次 union0) 操作 之 前 这 条 性 质 成 立 ， 那 么 操作 之 后 它 必然 也 
成 立 。 因 此 ，quick-union 中 的 findQ 方法 能 够 返回 根 节点 所 对 应 的 触 点 的 名 称 (这 样 connected() 
才能 够 判定 两 个 触 点 是 否 在 同一 棵 树 中 ) 。 这 种 表示 方法 对 于 这 个 问题 很 实用 ， 因 为 当 上 且 仅 当 两 个 触 
点 存在 于 相同 的 分 量 之 中 时 它们 对 应 的 节点 才 会 在 同一 棵 树 中 。 另 外 ， 构 造 树 并 不 困难 : quick-union 
中 unionQ 的 实现 只 用 了 一 条 语句 就 将 一 个 根 节 点 变 为 另 一 个 根 节点 的 父 节 点 ， 从 而 归并 了 两 棵 树 。 
1.5.2.5 _ quick-union 算法 的 分 析 

quick-union 算法 看 起 来 比 quick-find 算法 更 快 ， 因 为 它 不 需要 为 每 对 输入 遍历 整个 数组 。 但 它 
能 够 快 多 少 呢 ? 分 析 quick-union 算法 的 成 本 比分 析 quick-find 算法 的 成 本 更 困难 ， 因 为 这 依赖 于 输 
入 的 特点 。 在 最 好 的 情况 下 ，find() 只 需要 访问 数组 一 次 就 能 够 得 到 一 个 触 点 所 在 的 分 量 的 标识 
符 ; 而 在 最 坏 情 况 下 ， 这 需要 2N - 1 次 数组 访问 ， 如 图 1.5.6 中 的 0 触 点 (这 个 佑 计 是 较为 保守 的 ， 
因为 while 循环 中 经 过 编译 的 代码 对 id[p] 的 第 二 次 引用 一 般 都 不 会 访问 数组 ) 。 由 此 我 们 不 难 
构造 一 个 最 佳 情 况 的 输入 使 得 解决 动态 连通 性 问题 的 用 例 的 运行 时 间 是 线性 级 别 的 ; 另 一 方面 ， 我 
们 也 可 以 构造 一 个 最 坏 情 况 的 输入 ， 此 时 它 的 运行 时 间 是 平方 级 别 的 〈 请 见 图 1.5.6 和 下 面 的 命题 
G ) 。 幸 好 我 们 不 需要 面 对 分 析 quick-union 算法 的 问题 ， 我 们 也 不 会 仔细 对 比 quick-union 算法 和 
quick-find 算法 的 性 能 ， 因 为 我 们 下 面 将 会 学 习 一 种 比 两 者 的 效率 都 高 得 多 的 算法 。 目 前 ， 我 们 可 
以 将 quick-union 算法 看 做 是 quick-find 算法 的 一 种 改良 ， 因 为 它 解决 了 quick-find 算法 中 最 主要 的 
问题 (unionQ 操作 总 是 线性 级 别 的 ) 。 对 于 一 般 的 输入 数据 这 个 变化 显然 是 一 次 改进 ， 但 quick- 
union 算法 仍然 存在 问题 ， 我 们 不 能 保证 在 所 有 情况 下 它 都 能 比 quick-find 算法 快 得 多 ( 对 于 某 些 输 
人 ，quick-union 算法 并 不 比 quick-find 算法 快 ) 。 
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图 1.5.5 quick-union 算法 的 轨迹 (以 及 相应 的 森林 ) 


定义 。 一 棵 树 的 大 小 是 它 的 节点 的 数量 。 树 中 的 一 个 节点 的 深度 是 它 到 根 节 点 的 路 径 上 的 链接 
数 。 树 的 高 度 是 它 的 所 有 节点 中 的 最 大 深度 。 


命题 G。quick-union 算法 中 的 find() 方法 访问 数组 的 次 数 为 1 加 上 给 定 触 点 所 对 应 的 节点 的 
深度 的 两 倍 。union() 和 connected() 访问 数组 的 次 数 为 两 次 find() 操作 (如果 union() 中 
给 定 的 两 个 触 点 分 别 存 在 于 不 同 的 树 中 则 还 需要 加 1) 。 


证 明 。 请 见 代码 。 | 
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同样 ， 假 设 我 们 使 用 quick-union 算法 解决 了 动态 连通 性 问题 并 最 终 只 得 到 了 一 个 分 量 ， 由 命 
题 G 我 们 马上 可 以 知道 算法 的 运行 时 间 在 最 坏 情况 下 是 平方 级 别 的 。 假 设 输入 的 整数 对 是 有 序 的 
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0-1、0-2、0-3 等 ，N-1 对 之 后 我 们 的 YX 个 触 点 将 全 部 处 于 相同 的 集合 之 中 且 由 quick-union 算法 得 
到 的 树 的 高 度 为 N-1， 其 中 0 链接 到 1，1 链接 到 2，2 链接 到 3， 如 此 下 去 (请 见 图 1.5.6 ) 。 由 命 
题 G 可 知 ， 对 于 整数 对 0 i，union() 操作 访问 数组 的 次 数 为 2i+2( 触 点 0 的 深度 为 i， 触 点 i 的 深 
度 为 0) 。 因 此 ， 处理 入 对 整数 所 需 的 所 有 find() 操作 访问 数组 的 总 次 数 为 2(142+…+N) ~ NP。 
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图 1.5.6 ”quick-union 算法 的 最 坏 情 况 


1.5.2.6 ”加 权 quick-union 算法 

幸好 ， 我 们 只 需 简 单 地 修改 quick-union 算法 就 能 保证 像 这 样 的 糟糕 情况 不 再 出 现 。 与 其 在 
union() 中 随意 将 一 棵 树 连 接 到 另 一 棵 树 ， 我 们 现在 会 记录 每 一 棵 树 的 大 小 并 总 是 将 较 小 的 树 连 接 
到 较 大 的 树 上 。 这 项 改动 需要 添加 一 个 数组 和 一 些 代码 来 记录 树 中 的 节点 数 ， 如 算法 1.5 所 示 ， 但 
它 能 够 大 大 改进 算法 的 效率 。 我 们 将 它 称 为 加 权 quick-union 算法 ( 如 图 1.5.7 所 示 ) 。 该 算法 在 处 
理 tinyUF.txt 时 构造 的 森林 如 图 1.5.8 中 左 侧 的 图 所 示 。 即 使 对 于 这 个 较 小 的 例子 ， 该 算法 构造 的 树 
的 高 度 也 远 远 小 于 未 加 权 的 版 本 所 构造 的 树 的 高 度 。 
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图 1.5.7 加 权 quick-union 


1.5.2.7 ”加 权 quick-union 算法 的 分 析 

图 1.5.8 显示 了 加 权 quick-union 算法 的 
最 坏 情况 。 其 中 将 要 被 归并 的 树 的 大 小 总 是 
相等 的 〈( 且 总 是 2 的 震 ) 。 这 些 树 的 结构 看 
起 来 很 复杂 ,但 它们 均 含有 2" 个 节点 ， 因 此 
高 度 都 正好 是 n。 男 外 ， 当 我 们 归并 两 个 含 
有 "个 节点 的 树 时 ， 我 们 得 到 的 树 含 有 2” 
个 节点 ， 由 此 将 树 的 高 度 增加 到 了 n+1。 由 
此 推广 我 们 可 以 证 明 加 权 quick-union 算法 
能 够 保证 对 数 级 别 的 性 能 。 加 权 quick-union 
算法 的 实现 如 算法 1.5 所 示 。 


算法 1.5( 续 ) 


public class WeightedQuickUnionUF 
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% java WeightedQuickUnionUF < mediumUF .txt 
528 503 
548 523 


3 components 


% java WeightedQuickUnionUF < largeUF.txt 
786321 134521 
696834 98245 


6 components 


union-find 算法 的 实现 (加 权 quick-union 算法 ) 


// (由 触 点 索引 的 ) 各 个 根 节点 所 对 应 的 分 量 的 大 小 


; SzZ[j] += sz[i]; } 
; Sz[i] += sz[j]; } 


{ 
private int[] id; // 父 链 接 数 组 ( 由 触 点 索引 ) 
private int[] sz; 
private int count; // 连通 分 量 的 数量 
public WeightedQuickUnionUFCint N} 
{ 
Count = N; 
id = new 1ntEN] : 
for Cint 1 = 0; i < Ns i++ id[i] = i; 
sz = new int[N]; 
for Cint 1 = 0; 1 < NN: T+) sz[i] = 1; 
} 
public int coyuntO) 
{ return count; 了 
public boolean connected(int p, int 9q) 
{ return find(p) == find(g); } 
private int find(int p) 
{ // 跟随 链接 找到 根 节点 
while (p != id[p]) p = id[p]; 
return p; 
} 
public void union(int p, int q) 
{ 
int 1 = find(Cp): 
ht 3 = Fndta); 
If (1 = J) return: 
// 将 小 树 的 根 节点 连接 到 大 树 的 根 节点 
if (sz[i] < sz[j]) { id[i] = 
else { id[j] = 
Count--; 
} 


根据 正文 所 述 的 森林 表示 方法 这 段 代 码 很 容易 理解 。 我 们 加 入 了 一 个 由 触 点 索引 的 实例 变量 数组 
sz[], 这样 unionQ 就 可 以 将 小 树 的 根 节点 连接 到 大 树 的 根 节点 。 这 使 得 算法 能 够 处 理 规模 较 大 的 问题 。 
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图 1.5.8 ”加权 quick-union 算法 的 轨迹 (森林 ) 


命题 H。 对 于 NN 个 触 点 ， 加 权 quick-union 算法 构造 的 森林 中 的 任意 节点 的 深度 最 多 为 lgN。 


证 明 。 我 们 可 以 用 归纳 法 证 明 一 个 更 强 的 命题 ， 即 森林 中 大 小 为 k 的 树 的 高 度 最 多 为 lgk。 在 
原始 情况 下 ， 当 等 于 1 时 树 的 高 度 为 0。 根 据 归纳 法 ， 我们 假设 大 小 为 i 的 树 的 高 度 最 多 为 
lgi， 其 中 i<k。 设 i<j 且 itj=k， 当 我 们 将 大 小 为 i 和 大 小 为 j 的 树 归并 时 ，quick-union 算法 和 
加 权 quick-union 算法 中 触 点 与 深度 示例 如 图 1.5.9 所 示 。 小 树 中 的 所 有 节点 的 深度 增加 了 1， 
但 它们 现在 所 在 的 树 的 大 小 为 itj=k， 而 1+lgi=lg(iti) < lg(it7)=lgk， 性 质 成 立 。 


人 A 


加 权 quick-union 算 法 


. MA A 
从 1 人 平均 深度 : 1.52 
图 1.5.9 quick-union 算法 与 加 权 quick-union 算法 的 对 比 (100 个 触 点 ，88 次 union0) 操作 ) 


平均 深度 : 5.11 


1.5 案例 研究 : union-find 算法 声 147 


推论 。 对 于 加 权 quick-union 算法 和 NN 个 触 点 ， 在 最 坏 情况 下 find()、connected() 和 
union( 的 成 本 的 增长 数量 级 为 logN。 


证 明 。 在 森林 中 ， 对 于 从 一 个 节点 到 它 的 根 节点 的 路 径 上 的 每 个 节点 ， 每 种 操作 最 多 都 只 会 访 
间 数 组 常数 次 。 


对 于 动态 连通 性 问题 ， 命 题 H 和 它 的 推论 的 实际 意义 在 于 加 权 quick-union 算法 是 三 种 算法 中 唯 
一 可 以 用 于 解决 大 型 实际 问题 的 算法 。 加 权 quick-union 算法 处 理 N 个 触 点 和 M 条 连接 时 最 多 访问 
数组 cMlgN 次 ， 其 中 c 为 常数 。 这 个 结果 和 quick-find 算法 ( 以 及 某 些 情况 下 的 quick-union 算法 ) 
需要 访问 数组 至 少 MN 次 形成 了 鲜明 的 对 比 。 因 此 ， 有 了 加 权 quick-union 算法 我 们 就 能 保证 能 够 在 
合理 的 时 间 范 围 内 解决 实际 中 的 大 规模 动态 连通 性 问题 。 只 需要 多 写 几 行 代码 ， 我 们 所 得 到 的 程序 
在 处 理 实际 应 用 中 的 大 型 动态 连通 性 问题 时 就 会 比 简单 的 算法 快 数 百 万 倍 。 

1.5.9 显示 的 是 一 个 含有 100 个 触 点 的 例子 。 从 图 中 我 们 可 以 很 明显 地 看 到 ， 加 权 quick- 
union 算法 中 远离 根 节 点 的 节点 相对 较 少 。 事 实 上 ， 只 含有 一 个 节点 的 树 被 归并 到 更 大 的 树 中 的 情 
况 很 常见 ， 这 样 该 节点 到 根 节点 的 距离 也 只 有 一 条 链接 而 已 。 针对 大 规模 问题 的 经 验 性 研究 告诉 我 
们 , 加 权 quick-union 算法 在 解决 实际 问题 时 一 般 都 能 在 常数 时 间 内 完成 每 个 操作 ( 如 表 1.5.3 所 示 ) 。 
我 们 可 能 很 难 找到 比 它 效率 更 高 的 算法 了 。 230 


表 1.5.3 各 种 union-find 算法 的 性 能 特点 


算 法 存在 N 个 触 点 时 成 本 的 增长 数量 级 〈 最 坏 情 况 下 ) 


构造 函数 union() findO) 
quick-find 算法 N N 1 
quick-union 算法 N 树 的 高 度 树 的 高 度 
加 权 quick-union 算法 N lgN lgN 
使 用 路 径 压缩 的 加 权 quick-union 算法 N RR 
理想 情况 N 1 1 


1.5.2.8 最 优 算 法 
我 们 可 以 找到 一 种 能 够 保证 在 常数 时 间 内 完成 各 种 操作 的 算法 吗 ? 这 个 问题 非常 困难 并 且 困 扰 
了 研究 者 们 许多 年 。 在 寻找 答案 的 过 程 中 ， 大 家 研究 了 quick-union 算法 和 加 权 quick-union 算法 的 
各 种 变 体 。 例 如 ， 下 面 这 种 路 径 压 缩 方法 很 容易 实现 。 理 想 情 况 下 ， 我 们 希望 每 个 节点 都 直接 链接 
到 它 的 根 节 点 上 ， 但 我 们 又 不 想像 quick-find 算法 那样 通过 修改 大 量 链接 做 到 这 一 点 。 我 们 接近 这 
种 理想 状态 的 方式 很 简单 ， 就 是 在 检查 节点 的 同时 将 它们 直接 链接 到 根 节 点 。 这 种 方法 乍 一 看 很 激 
进 ,但 它 的 实现 非常 容易 ， 而 且 这 些 树 并 没有 阻止 我 们 进行 这 种 修改 的 特殊 结构 :如 果 这 么 做 能 够 
改进 算法 的 效率 ， 我 们 就 应 该 实现 它 。 要 实现 路 径 压缩 ， 只 需要 为 find0() 添加 一 个 循环 ， 将 在 路 
径 上 遇 到 的 所 有 节点 都 直接 链接 到 根 节点 。 我 们 所 得 到 的 结果 是 几乎 完全 扁平 化 的 树 ， 它 和 quick- 
find 算法 理想 情况 下 所 得 到 的 树 非常 接近 。 这 种 方法 即 简单 又 有 效 ， 但 在 实际 ' i 笃 不 太 可 能 
对 加 权 quick-union 算法 继续 进行 任何 改进 了 ( 请 见 练习 1.5.24 ) 。 对 该 情况 的 理论 研究 结果 非常 复 
杂 也 值得 我 们 注意 ; 路 径 压缩 的 加 权 quick-union 算法 是 最 优 的 算法 ， Os 常数 
时 间 内 完成 。 也 就 是 说 ,使 用 路 径 压 缩 的 加 权 quick-union 算 法 的 每 个 操作 在 在 最 坏 情况 下 ( 即 均 挫 后 ) 
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都 不 是 常数 级 别 的 ， 而 且 不 存在 其 他 算法 能 够 保证 union-find 算法 的 所 有 操作 在 均 摊 后 都 是 常数 级 
别 的 (在 非常 一 般 的 cell probe 模型 之 下 ) 。 使 用 路 径 压 缩 的 加 权 quick-union 算法 已 经 是 我 们 对 于 


这 个 问题 能 够 给 出 的 最 优 解 了 。 
1.5.2.9” 均 摊 成 本 的 图 像 

与 对 其 他 任何 数据 结构 实现 的 讨论 一 样 ， 
我 们 应 该 按照 1.4 节 中 的 讨论 在 实验 中 用 典型 
的 用 例 验 证 我 们 对 算法 性 能 的 猜想 。 图 1.5.10 
详细 显示 了 我 们 的 动态 连通 性 问题 的 开发 用 
例 在 使 用 各 种 算法 处 理 一 份 含有 625 个 触 点 
的 样 例 数据 (mediumUF.txt ) 时 的 性 能 。 绘 
制 这 种 图 像 很 简单 (请 见 练习 1.5.16) : 在 
处 理 第 i 个 连接 时 ， 用 一 个 变量 cost 记录 其 
间 访 问 数组 (id[] 或 sz[] ) 的 次 数 ， 并 用 
一 个 变量 total 记录 到 目前 为 止 数组 访问 的 
总 次 数 。 我 们 在 (i， cost) 处 画 一 个 灰 点 ， 
在 (i，total/i) 处 画 一 个 红 点 ， 红 点 表示 
的 是 每 个 操作 的 平均 成 本 ， 即 均 摊 成 本 。 图 
像 能 够 帮助 我 们 更 好 地 理解 算法 的 行为 。 对 
于 quick-find 算法 ， 每 次 union() 操作 都 至 
少 访问 数组 625 次 ( 每 归并 一 个 分 量 还 要 加 
1， 最 多 再 加 625 ) ， 每 次 connected() 操 
作 都 访问 数组 2 次 。 一 开始 ， 大 多 数 连接 都 
会 产生 一 个 union() 调用 ， 因 此 累计 平均 值 
徘徊 在 625 左右 ; 后 来 ， 大 多 数 连接 产生 的 
connected() 调用 会 跳 过 union()， 因 此 累 
计 平 均值 开始 下 降 ， 但 仍 保持 了 相对 较 高 的 
水 平 (能够 产生 大 量 connected() 调用 并 跳 
过 union() 的 输入 性 能 要 好 得 多 ,例子 请 见 
练习 1.5.23 ) 。 对 于 quick-union 算法 ， 所 有 
的 操作 在 初始 阶段 访问 数组 的 次 数 都 不 多 ; 
到 了 后 期 ， 树 的 高 度 成 为 一 个 重要 因素 ， 均 
摊 成 本 的 增长 很 明显 。 对 于 加 权 quick-union 
算法 ， 树 的 高 度 一 直 很 小 ,没有 任何 昂贵 的 
操作 ， 均 摊 成 本 也 很 低 。 这 些 实验 验证 了 我 
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们 的 结论 ， 显 然 非常 有 必要 实现 加 权 quick-union 算法 ， 在 解决 实际 问题 时 已 经 没有 多 少 进一步 改 


进 的 空间 了 。 
1.5.3 ”展望 


直观 感觉 上 ， 我 们 学习 的 每 种 UF 的 实现 都 改进 了 上 一 个 版 本 的 实现 ， 但 这 个 过 程 并 不 突 无， 
因为 我 们 可 以 总 结 学 者 们 对 这 些 算法 多 年 的 研究 。 我 们 很 明确 地 说 明了 问题 ,解决 方法 的 实现 也 很 
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简单 ， 因 此 可 以 用 经 验 性 的 数据 评估 各 个 算法 的 优 劣 。 另 外 ， 还 可 以 通过 这 些 研究 验证 将 算法 的 
性 能 量化 的 数学 结论 。 只 要 可 能 ， 我 们 在 本 书 中 研究 各 种 基础 问题 时 都 会 遵循 类 似 于 本 节 中 讨论 
union-find 问题 时 的 基本 步骤 ,在 这 里 我 们 要 再 次 强调 它们 。 

口 完整 而 详细 地 定义 问题 ， 找 出 解决 问题 所 必需 的 基本 抽象 操作 并 定义 一 份 API。 

口 简洁 地 实现 一 种 初级 算法 ， 给 出 一 个 精心 组 织 的 开发 用 例 并 使 用 实际 数据 作为 输入 。 

口 当 实 现 所 能 解决 的 问题 的 最 大 规模 达 不 到 期 望 时 决定 改进 还 是 放弃 。 

口 逐步 改进 实现 ， 通 过 经 验 性 分 析 或 (和 ) 数学 分 析 验 证 改进 后 的 效果 。 

口 用 更 高 层次 的 抽象 表示 数据 结构 或 算法 来 设计 更 高 级 的 改进 版 本 。 

口 如 果 可 能 尽量 为 最 坏 情 况 下 的 性 能 提供 保证 ， 但 在 处 理 普 通 数 据 时 也 要 有 良好 的 性 能 。 

口 在 适当 的 时 候 将 更 细致 的 深入 研究 留 给 有 经 验 的 研究 者 并 继续 解决 下 一 个 问题 。 

我 们 从 union-find 问题 中 可 以 看 到 ， 算 法 设计 在 解决 实际 问题 时 能 够 为 程序 的 性 能 带 来 惊人 的 
提高 ， 这 种 潜力 使 它 成 为 热门 研究 领域 。 还 有 什么 其 他 类 型 的 设计 行为 可 能 将 成 本 降 为 原来 的 数 
百 万 甚至 数 十 亿 分 之 一 呢 ? 

设计 高 效 的 算法 是 一 种 很 有 成 就 感 的 智力 活动 ， 同 时 也 能 够 产生 直接 的 实际 效益 。 正 如 动态 连 
通 性 问题 所 示 ， 为 解决 一 个 简单 的 问题 我 们 学 习 了 许多 算法 ， 它 们 不 但 有 用 有 趣 ， 也 精巧 而 引 人 人 入 
胜 。 我 们 还 将 遇 到 许多 新 颖 独特 的 算法 ,它们 都 是 人 们 在 数 十 年 以 来 为 解决 许多 实际 问题 而 发 明 的 。 
随 着 计算 机 算法 在 科学 和 商业 领域 的 应 用 范围 越 来 越 广 ， 能 够 使 用 高 效 的 算法 来 解决 老 问 题 并 为 新 
问题 开发 有 效 的 解决 方案 也 越 来 越 重要 了 。 233 


图 答 终 


问 ”我 希望 为 API 添加 一 个 delete() 方法 来 允许 用 例 删除 连接 。 能 够 给 我 一 些 建议 吗 ? 
答 目前 还 没有 人 能 够 发 明 既 能 处 理 删 除 操作 而 又 和 本 节 中 所 介绍 的 算法 同样 简单 而 高 效 的 算法 。 这 个 
主题 在 本 书 中 会 反复 出 现 。 在 我 们 讨论 的 一 些 数据 结构 中 删除 比 添 加 要 困难 得 多 。 
问 ”cell-probe 模型 是 什么 ? 
答 ” 它 是 一 种 计算 模型 ， 其 中 我 们 只 会 记录 对 随机 内 存 的 访问 ， 内 存 大 小 足以 保存 所 有 输入 且 假 设 其 他 
操作 均 没 有 成 本 。 234 


图 练习 

1.5.1 使 用 quick-find 算法 处 理 序列 9-0 3-4 5-8 7-2 2-1 5-7 0-3 4-2 。 对 于 输入 的 每 一 对 整数 ， 给 出 id[] 
数组 的 内 容 和 访问 数组 的 次 数 。 

1.5.2 ”使 用 quick-union 算法 (请 见 1.5.2.3 节 代 码 框 ) 完成 练习 1.5.1。 另 外 ， 在 处 理 完 输入 的 每 对 整数 
之 后 画 出 id[] 数组 表示 的 森林 。 

1.5.3 ”使 用 加 权 quick-union 算法 (请 见 算法 1.5 ) 完成 练习 1.5.1。 

1.5.4 在 正文 的 加 权 quick-union 算法 示例 中 ， 对 于 输入 的 每 一 对 整数 ( 包括 对 照 输 入 和 最 坏 情 况 下 的 输 
入 ) ,给 出 id[] 和 sz[] 数组 的 内 容 以 及 访问 数组 的 次 数 。 

1.5.5 ”在 一 台 每 秒 能 够 处 理 10” 条 指令 的 计算 机 上 ， 估 计 quick-find 算法 解决 含有 10? 个 触 点 和 10 条 连 
接 的 动态 连通 性 问题 所 需 的 最 短 时 间 ( 以 天 记 ) 。 假 设 内 循环 for 的 每 一 次 迭代 需要 执行 10 条 
机 器 指令 。 
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1.5.6 ”使 用 加 权 quick-union 算法 完成 练习 1.5.5。 
1.5.7 “分别 为 quick-find 算法 和 quick-union 算法 实现 QuickFindUF 类 和 QuickUnionUF 类 。 
1.5.8 用 一 个 反例 证 明 quick-find 算法 中 的 union 0) 方法 的 以 下 直观 实现 是 错误 的 : 
public void union(int p, int q) 
并 
if (connected(p, 9q)) return; 
// 将 p 的 分 量 重 命名 为 q 的 分 量 
for (int i1 = 0; i < id.length; i++) 
if (id[i] == id[p]) id[i] = id[q]; 
Count--; 


1.5.9 画 出 下 面 的 id[] 数组 所 对 应 的 树 。 这 可 能 是 加 权 quick-union 算法 得 到 的 结果 吗 ? 解释 为 什么 不 
可 能 ， 或 者 给 出 能 够 得 到 该 数组 的 一 系列 操作 。 


0 | 
235 id[i] 人 车 让 克 江 党 六 二 
1.5.10 ”在 加 权 quick-union 算法 中 ,假设 我 们 将 id[find(p)] 的 值 设 为 q 而 非 id[find(q)] ， 所 得 的 


算法 是 正确 的 吗 ? 
答 : 是 ,但 这 会 增加 树 的 高 度 ， 因 此 无 法 保证 同样 的 性 能 。 
1.5.11 实现 加 权 quick-find 算法 ， 其 中 我 们 总 是 将 较 小 的 分 量 重 命名 为 较 大 的 分 量 的 标识 符 。 这 种 改变 
236 会 对 性 能 产生 怎样 的 影响 ? 


图 提高 是 

1.5.12 使 用 路 径 压 缩 的 quick-union 算法 。 根 据 路 径 压 缩 修改 quick-union 算法 (请 见 1.5.2.3 节 )，, 在 
findQ 方法 中 添加 一 个 循环 来 将 从 p 到 根 节点 的 路 径 上 的 每 个 触 点 都 连接 到 根 节点 。 给 出 一 列 
输入 ， 使 该 方法 能 够 产生 一 条 长 度 为 4 的 路 径 。 注 意 : 该 算法 的 所 有 操作 的 均 摊 成 本 已 知 为 对 
数 级 别 。 

1.5.13 使 用 路 径 压缩 的 加 权 quick-union 算法 。 修改 加 权 quick-union 算法 (算法 1.5 ) , 实现 如 练习 1.5.12 
所 述 的 路 径 压 缩 。 给 出 一 列 输入 ， 使 该 方法 能 够 产生 一 棵 高 度 为 4 的 树 。 注 意 : 该 算法 的 所 有 
操作 的 均 摊 成 本 已 知 被 限制 在 反 Ackermann 函数 的 范围 之 内 ， 且 对 于 实际 应 用 中 可 能 出 现 的 所 
及 值 均 小 于 5。 

1.5.14 根据 高 度 加 权 的 quick-union 算法 ,给 出 UF 的 一 个 实现 , 使 用 和 加 权 quick-union 算 法 相同 的 策略 ， 
但 记录 的 是 树 的 高 度 并 总 是 将 较 矮 的 树 连接 到 较 高 的 树 上 。 用 算法 证 明 NW 个 触 点 的 树 的 高 度 不 
会 超过 其 大 小 的 对 数 级 别 。 

1.5.15 三 项 树 。 请 证 明 , 对 于 加 权 quick-union 算 法 , 在 最 坏 情况 下 树 中 每 一 层 的 节点 数 均 为 二 项 式 系数 。 
在 这 种 情况 下 ， 计 算 含 有 N=2” 个 节点 的 树 中 节点 的 平均 深度 。 

1.5.16 均 摊 成 本 的 图 像 。 修改 你 为 练习 1.5.7 给 出 的 实现 ， 绘 出 如 正文 所 示 的 均 摊 成 本 的 图 像 。 

1.5.17 ”随机 连接 。 设计 UF 的 一 个 用 例 ErdosRenyi， 从 命令 行 接受 一 个 整数 N, 在 0 到 N-1 之 间 产 生 随 
机 整数 对 ， 调 用 connected(0) 判断 它们 是 否 相 连 ， 如 果 不 是 则 调用 union0) 方法 ( 和 我 们 的 开 
发 用 例 一 样 ) 。 不 断 循环 直到 所 有 触 点 均 相 互 连 通 并 打印 出 生成 的 连接 总 数 。 将 你 的 程序 打包 
成 一 个 接受 参数 N 并 返回 连接 总 数 的 静态 方法 count () ， 添 加 一 个 main() 方法 从 命令 行 接受 N， 
调用 countQ 并 打印 它 的 返回 值 。 
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随机 网 格 生成 器 。 编 写 一 个 程序 RandomGrid， 从 命令 行 接受 一 个 int 值 N， 生 成 一 个 NxN 的 
网 格 中 的 所 有 连接 。 它 们 的 排列 随机 且 方 向 随机 ( 即 (p q) 和 (q p) 出 现 的 可 能 性 是 相等 的 ) ， 将 
这 个 结果 打印 到 标准 输出 中 。 可 以 使 用 RandomBag 将 所 有 连接 随机 排列 (请 见 练习 1.3.34 ) ， 
并 使 用 如 右 下 所 示 的 Connection 风 套 类 来 将 p 和 q 封装 到 一 个 对 象 中 。 将 程序 打包 成 两 个 静态 
方法 : generate()， 接 受 参数 N 并 返回 一 个 连接 的 数组 ; main() ， 从 命令 行 接受 参数 N， 调 用 
generate()， 遍 历 返 回 的 数组 并 打印 出 所 有 连接 。 

动画 。 编 写 一 个 RandomGrid ( 请 见 练习 1.5.18 ) 

的 用 例 ， 和 我 们 的 开发 用 例 一 样 使 用 UnionFind 坟 vate class Connection 


来 检查 触 点 的 连通 性 并 在 处 理 的 同时 用 StdDraw i 
将 它们 绘 出 。 int qi 
动态 生长 。 使 用 链表 或 大 小 可 变 的 数组 实现 加 权 public ConnectionCint p, int q) 


quick-union 算法 ， 去 掉 需 要 预先 知道 对 象 数量 {. this.p'sp: thisiq = WH; 3 


的 限制 。 为 API 添加 一 个 新 方法 newSite()， 
它 应 该 返回 一 个 类 型 为 int 的 标识 符 。 封装 连接 的 椒 套 类 
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1.5.21 


1.5.22 


1.5.23 


1.5.24 


1.5.25 


1.5.26 


Erd6s-Renyi 模型 。 使 用 练习 1.5.17 的 用 例 验证 这 个 猜想 : 得 到 单个 连通 分 量 所 需 生 成 的 整数 对 
数量 为 ~1/2NInN。 

Erd6s-Renyi 模型 的 倍率 实验 。 开 发 一 个 性 能 测试 用 例 ， 从 命令 行 接受 一 个 int 值 T 并 进行 T 次 
以 下 实验 : 使 用 练习 1.5.17 的 用 例 生 成 随机 连接 ， 和 我 们 的 开发 用 例 一 样 使 用 UnionFind 来 检 
查 触 点 的 连通 性 ， 不 断 循 环 直到 所 有 触 点 均 相互 连通 。 对 于 每 个 N， 打 印 出 N 值 和 平均 所 需 的 连 
接 数 以 及 前 后 两 次 运行 时 间 的 比值 。 使 用 你 的 程序 验证 正文 中 的 猜想 : quick-hnd 算法 和 quick- 
union 算法 的 运行 时 间 是 平方 级 别 的 ， 加 权 quick-union 算法 则 接近 线性 级 别 。 

在 Erd6s-Renyi 模型 下 比较 quick-find 算法 和 quick-union 算法 。 开 发 一 个 性 能 测试 用 例 ， 从 命令 
行 接受 一 个 int 值 T 并 进行 T 次 以 下 实验 : 使 用 练习 1.5.17 的 用 例 生成 随机 连接 。 保 存 这 些 连 
接 并 和 我 们 的 开发 用 例 一 样 分 别 用 quick-find 算法 和 quick-union 算法 检查 触 点 的 连通 性 ， 不 断 
循环 直到 所 有 触 点 均 相互 连 通 。 对 于 每 个 N， 打 印 出 N 值 和 两 种 算法 的 运行 时 间 的 比值 。 

适用 于 Erd6s-Renyi 模型 的 快速 算法 。 在 练习 1.5.23 的 测试 中 增加 加 权 quick-union 算法 和 使 用 路 
径 压 缩 的 加 权 quick-union 算法 。 你 能 分 辨 出 这 两 种 算法 的 区 别 吗 ? 

随机 网 格 的 倍率 测试 。 开 发 一 个 性 能 测试 用 例 , 从 命令 行 接受 一 个 int 值 T 并 进行 T 次 以 下 实验 : 

使 用 练习 1.5.18 的 用 例 生成 一 个 NxN 的 随机 网 格 ， 所 有 连接 的 方向 随机 且 排 列 随机 。 和 我 们 的 
开发 用 例 一 样 使 用 UnionFind 来 检查 触 点 的 连通 性 ， 不 断 循环 直到 所 有 触 点 均 相互 连通 。 对 于 每 
个 N， 打印 出 N 值 和 平均 所 需 的 连接 数 以 及 前 后 两 次 运行 时 间 的 比值 。 使 用 你 的 程序 验证 正文 中 
的 猜想 : quick-find 算法 和 quick-union 算法 的 运行 时 间 是 平方 级 别 的 ， 加 权 quick-union 算法 则 
接近 线性 级 别 。 注 意 : 随 着 N 值 加 倍 ， 网 格 中 触 点 的 数量 会 乘 4， 因 此 平方 级 别 的 算法 的 运行 时 
间 会 变 为 原来 的 16 倍 ， 线 性 级 别 的 算法 的 运行 时 间 则 变 为 原来 的 4 倍 。 

Erd6s-Renyi 模型 的 均 摊 成 本 图 像 。 开 发 一 个 用 例 ， 从 命令 行 接受 一 个 int 值 N, 在 0 到 N-1 之 
间 产 生 随 机 整数 对 ， 调 用 connectedQ 判断 它们 是 否 相 连 ， 如 果 不 是 则 调用 union0) 方法 (和 
我 们 的 开发 用 例 一 样 ) 。 不 断 循环 直到 所 有 触 点 均 相 互 连 通 。 按 照 正文 的 样式 将 所 有 操作 的 均 
挫 成 本 绘制 成 图 像 。 





ktD 
LD 
Co 


| 第 2 章 排 序 


排序 就 是 将 一 组 对 象 按照 某 种 逻辑 顺序 重新 排列 的 过 程 。 比 如 ， 信 用 卡 账单 中 的 交易 是 按照 日 
期 排序 的 一 一 这 种 排序 很 可 能 使 用 了 某 种 排序 算法 。 在 计算 时 代 早 期 ， 大 家 普遍 认为 30% 的 计算 
周期 都 用 在 了 排序 上 。 如 果 今 天 这 个 比例 降低 了 ， 可 能 的 原因 之 一 是 如 今 的 排序 算法 更 加 高 效 ， 而 
并 非 排序 的 重要 性 降低 了 。 现 在 计算 机 的 广泛 使 用 使 得 数据 无 处 不 在 ， 而 整理 数据 的 第 一 步 通常 就 
是 进行 排序 。 所 有 的 计算 机 系统 都 实现 了 各 种 排序 算法 以 供 系统 和 用 户 使 用 。 
即使 你 只 是 使 用 标准 库 中 的 排序 函数 ， 学 习 排 序 算法 仍然 有 三 大 实际 意义 : 
口 对 排序 算法 的 分 析 将 有 助 于 你 全 面 理解 本 书 中 比较 算法 性 能 的 方法 ; 
口 类 似 的 技术 也 能 有 效 解决 其 他 类 型 的 问题 ; 
口 排序 算法 常常 是 我 们 解决 其 他 问题 的 第 一 步 。 
更 重要 的 是 这 些 算法 都 很 经 典 、 优 雅 和 高 效 。 
排序 在 商业 数据 处 理 和 现代 科学 计算 中 有 着 重要 的 地 位 ， 它 能 够 应 用 于 事物 处 理 、 组 合 优化 、 
天 体 物理 学 、 分 子 动力 学 、 语 言 学 、 基 因 组 学 、 天 气 预 报 和 很 多 其 他 领域 。 其 中 一 种 排序 算法 ( 快 
速 排序 ， 见 2.3 节 ) 其 至 被 誉 为 20 世纪 科学 和 工程 领域 的 十 大 算法 之 一 。 
2 在 本 章 中 我 们 将 学 习 几 种 经 典 的 排序 算法 ， 并 高 效 地 实现 了 “优先 队列 ”这 种 基础 数据 类 型 。 
243| 我们 将 讨论 比较 排序 算法 的 理论 基础 并 在 本 章 结尾 总 结 若干 排序 算法 和 优先 队列 的 应 用 。 
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2.1 初级 排序 算法 


作为 对 排序 算法 领域 的 第 一 次 探索 , 我 们 将 学 习 两 种 初级 的 排序 算法 以 及 其 中 一 种 的 一 个 变 体 。 
深入 学 习 这 些 相对 简单 的 算法 的 原因 在 于 : 第 一 ,我 们 将 通过 它们 熟悉 一 些 术 语 和 简单 的 技巧 ; 第 二 ， 
这 些 简单 的 算法 在 某 些 情况 下 比 我 们 之 后 将 会 讨论 的 复杂 算法 更 有 效 ; 第 三 ， 以 后 你 会 发 现 ， 它 们 
有 助 于 我 们 改进 复杂 算法 的 效率 。 


2.1.1 游戏 规则 

我 们 关注 的 主要 对 象 是 重新 排列 数组 元 素 的 算法 ， 其 中 每 个 元 素 都 有 一 个 主键 。 排 序 算 法 的 目 
标 就 是 将 所 有 元 素 的 主键 按照 某 种 方式 排列 〈 通常 是 按照 大 小 或 是 字母 顺序 ) 。 排 序 后 索引 较 大 的 
主键 大 于 等 于 索引 较 小 的 主键 。 元 素 和 主键 的 具体 性 质 在 不 同 的 应 用 中 千差万别 。 在 Java 中 ， 元 素 
通常 都 是 对 象 , 对 主键 的 抽象 描述 则 是 通过 一 种 内 置 的 机 制 (请 见 2.1.1.4 节 中 的 Comparable 接口 ) 
来 完成 的 。 

“排序 算法 类 模版 ”中 的 Example 类 展示 了 我 们 的 习惯 约定 : 我 们 会 将 排序 代码 放 在 类 的 
sort() 方法 中 ,该 类 还 将 包含 辅助 函数 less() 和 exch() (可 能 还 有 其 他 辅助 函数 ) 以 及 一 个 示 
例 用 例 main()。Example 类 还 包含 了 一 些 早期 调试 使 用 的 代码 : 测试 用 例 mainQ 将 标准 输入 得 
到 的 字符 串 排序 ， 并 用 私有 方法 show(Q) 打印 字符 数组 的 内 容 。 我 们 还 会 在 本 章 中 遇 到 各 种 用 于 比 
较 不 同 算法 并 研究 它们 的 性 能 的 测试 用 例 。 为 了 区 别 不 同 的 排序 算法 ， 我 们 为 相应 的 类 取 了 不 同 
的 名 字 ， 用 例 可 以 根据 名 字 调 用 不 同 的 实现 ， 例 如 Insertion.sort() 、Merge.sort() 、Qui ck ， 
sort() 等 。 

大 多 数 情况 下 ， 我 们 的 排序 代码 只 会 通过 两 个 方法 操作 数据 : less0) 方法 对 元 素 进行 比较 ， 
exchQ 方法 将 元 素 交 换 位 置 。exch 0) 方法 的 实现 很 简单 ， 通 过 Comparable 接口 实现 1ess() 方 
法 也 不 困难 。 将 数据 操作 限制 在 这 两 个 方法 中 使 得 代码 的 可 读 性 和 可 移植 性 更 好 ， 更 容易 验证 代码 
的 正确 性 、 分 析 性 能 以 及 排序 算法 之 间 的 比较 。 在 学 习 有 具体 的 排序 算法 实现 之 前 ， 我 们 先 讨 论 几 个 
对 于 所 有 排序 算法 都 很 重要 的 问题 。 


排序 算法 类 的 模板 








public class Example 


public static void sort(Comparable[] a) 
{ /* 请 见 算法 2.1、 算 法 2.2、 算 法 2.3、 算 法 2.4、 算 法 2.5 或 算法 2.7*/ } 


private static boolean less(Comparable v, Comparable w) 
{ return v.compareTo(w) < 0; } 


private static void exch(Comparable[] a, int i, int j) 
{ Comparable t = a[i]; a[i] = a[j]; a[j] = t; } 


private static void show(Comparable[] a) 
{ ”// 在 单行 中 打印 数组 
for (int 1 = 0; 1 < a.length; i++) 
StdOut.print(a[i] + " "); 


ore tiny.txt 
Stdout.println0) ; 


mor 
OR TE XA Mt pub: 


ava Example < tiny.txt 


% 
S 
} 
public static boolean isSorted(Comparable[] a) % jav 
A EMO RS 


{ // 测试 数组 元 素 是 否 有 序 
TGF Cnt ts L 1 arlength; YLH 
if (less(a[i], a[i-1])) return false; 
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return true; 


} 
public static void main(String[] 
args) % more words3.txt 

{ // 从 标准 输入 读 取 字 符 串 ,将 它们 排序 并 输出 bed bug dad yes zoo ... all bad yet 
String[] a = In.readStrings(); E 
sort(a); % java Example < words.txt 
assert isSorted(a); all bad bed bug dad ... yes yet zoo 
show(a); 

} 


} 

这 个 类 展示 的 是 数组 排序 实现 的 框架 。 对 于 我 们 学 习 的 每 种 排序 算法 ,我们 都 会 为 这 样 一 个 类 实现 
一 个 sort( 方法 并 将 Example 改 为 算法 的 名 称 。 测 试用 例会 将 标准 输入 得 到 的 字符 串 排序 ， 但 是 这 段 
代码 使 我 们 的 排序 方法 适用 于 任意 实现 了 Comparable 接口 的 数据 类 型 。 


2.1.1.1 验证 

无 论 数组 的 初始 状态 是 什么 ， 排 序 算法 都 能 成 功 吗 ”谨慎 起 见 ， 我 们 会 在 测试 代码 中 添加 一 条 
语句 assert isSorted(a); 来 确认 排序 后 数组 元 素 都 是 有 序 的 。 尽 管 一 般 都 会 测试 代码 并 从 数学 
上 证 明 算 法 的 正确 性 ， 但 在 实现 每 个 排序 算法 时 加 上 这 条 语句 仍然 是 必要 的 。 需 要 注意 的 是 ， 如 果 
我 们 只 使 用 exchQ 来 交换 数组 的 元 素 ， 这 个 测试 就 足够 了 。 当 我 们 直接 将 值 存 人 数组 中 时 ， 这 条 
语句 无 法 提供 足够 的 保证 〈 例如， 把 初始 输入 数组 的 元 素 全 部 置 为 相同 的 值 也 能 通过 这 个 测试 ) 。 
2.1.1.2 ”运行 时 间 

我 们 还 要 评估 算法 的 性 能 。 首 先 ， 要 计算 各 个 排序 算法 在 不 同 的 随机 输入 下 的 基本 操作 的 次 数 
(包括 比较 和 交换 ， 或 者 是 读 写 数 组 的 次 数 ) 。 然 后 ， 我 们 用 这 些 数据 来 估计 算法 的 相对 性 能 并 介 
绍 在 实验 中 验证 这 些 猜 想 所 使 用 的 工具 。 对 于 大 多 数 实现 ， 代 码 风 格 一 致 会 使 我 们 更 容易 作出 对 性 
能 的 合理 猜想 。 


排序 成 本 模型 。 在 研究 排序 算法 时 ， 我 们 需要 计算 比较 和 交换 的 数量 。 对 于 不 交换 元 素 的 算法 ， 
我 们 会 计算 访问 数组 的 次 数 。 


2.1.1.3 ”额外 的 内 存 使 用 

排序 算法 的 额外 内 存 开 销 和 运行 时 间 是 同等 重要 的 。 排 序 算法 可 以 分 为 两 类 : 除了 函数 调用 所 
需 的 栈 和 固定 数目 的 实例 变量 之 外 无 需 额外 内 存 的 原 地 排序 算法 ， 以 及 需要 额外 内 存 空间 来 存储 男 
一 份 数组 副本 的 其 他 排序 算法 。 
2.1.1.4 数据 类 型 

我 们 的 排序 算法 模板 适用 于 任何 实现 了 Comparable 
接口 的 数据 类 型 。 遵 守 Java 惯例 的 好 处 是 很 多 你 希望 排 。 Rose ar = ew oub er 
序 的 数据 都 实现 了 Comparable 接口 。 例 如 ，Java 中 封装 a[i] = StdRandom.uniform() ; 
数字 的 类 型 Integer 和 Double， 以 及 String 和 其 他 许 9 
多 高 级 数据 类 型 (如 File 和 URL ) 都 实现 了 Comparable 将 N 个 随机 值 的 数组 排序 
接口 。 因 此 你 可 以 直接 用 这 些 类 型 的 数组 作为 参数 调用 我 
们 的 排序 方法 。 例 如 ， 右 上 方 的 代码 使 用 了 快速 排序 ( 请 见 2.3 节 ) 来 对 N 个 随机 的 Double 数据 进 
行 排序 。 | 
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3 门 只 
在 创建 自己 的 数据 类 型 时 我 们 只 public class Date implements Comparable<Date> 
要 实现 Comparable 接口 就 能 够 保证 用 { 


例 代码 可 以 将 其 排序 。 要 做 到 这 一 点 ， or 
Ea private final int month; 
只 需要 实现 一 个 compareTo() 方法 来 private final int year; 
定义 目标 类 型 对 象 的 自然 次 序 ， 如 右 侧 public DateCint d, int m, int y) 
的 Date 数据 类 型 所 示 ( 参见 表 1.2.12 ) 。 { day = di month = mi year = y; } 
对 于 v<w、v=w 和 v>w 三 种 情况 ， public int day() { return day;  } 
i public int monthQO { return month; } 
Java 的 习惯 是 在 v.compareTo(w) 被 public int year() { return year; } 
] > 0 生生- 
调用 时 分 别 返 回 个 负 整数 、 零 和 public int compareTo(Date that) 
个 正 整数 (一般 是 -1、0 和 1)。 为 了 { 
i 和 ， a if (this.year > that.year ) return +1; 
节约 篇 幅 ， 我 们 接 下 来 用 v>w 来 表示 if (this.year < that.year ) return -1; 
v.CcompareTo(w)>0 这 样 的 代码 。 一 般 if (this.month > that.month) return +1; 
> 本 if (this.month < that.month) return -1; 
来 说 ， 如 果 v 和 w 无 法 比较 或 者 两 者 之 if (this.day > that.day ) return +1; 
一 是 nu11，v.compareTo(w) 将 会 抛 出 if (this.day < that.day ) return -1; 
一 个 异常 。 此 外 ，compareTo() 必须 实 rene 
a * 六 1 » 
现 一 个 完整 的 比较 序列 ， 即 ; pyublic String toStringO 
口 自 反 性 ， 对 于 所 有 的 v，v=v; { return month + "/" + day + "/" + year; } 
口 反对 称 性 ， 对 于 所 有 的 vw 都 ”1 
ms 定义 一 个 可 比较 的 数据 类 型 


口 传递 性 ,对 于 所 有 的 v、w 和 x， 
如 果 v<=w 日 w<=x， 则 v<=x。 

从 数学 上 来 说 这 些 规 则 都 很 标准 和 自然 ， 遵 守 它 们 应 该 不 难 。 总 之 ，compareTo() 实现 了 我 们 
的 主键 抽象 一 一 它 给 出 了 实现 了 Comparable 接口 的 任意 数据 类 型 的 对 象 的 大 小 顺序 的 定义 。 需 要 
注意 的 是 compareToQ 方法 不 一 定 会 用 到 进行 比较 的 实例 的 所 有 实例 变量 ， 毕 竟 数 组 元 素 的 主键 
很 可 能 只 是 每 个 元 素 的 一 小 部 分 。 

本 章 璋 余 篇 幅 将 会 讨论 对 一 组 自然 次 序 的 对 象 进行 排序 的 各 种 算法 。 为 了 比较 和 对 照 各 种 算 
法 ， 我 们 会 检查 它们 的 许多 性 质 ， 包 括 在 各 种 输入 下 它们 比较 和 交换 数组 元 素 的 次 数 以 及 额外 内 
存 的 使 用 量 。 通 过 这 些 我 们 能 够 对 它们 的 性 能 作出 猜想 ， 而 这 些 猜 想 在 过 去 的 数 十 年 间 已 经 在 无 
数 的 计算 机 上 被 验证 过 了 。 所 有 的 实现 都 是 需要 通过 检验 的 ， 所 以 我 们 也 会 讨论 相关 的 工具 。 在 
研究 经 典 的 选择 排序 、 插 入 排序 、 希 尔 排序 、 归 并 排序 、 快 速 排 序 和 堆 排 序 之 后 ， 我 们 将 在 2.5 
节 讨 论 一 些 实际 的 应 用 和 问题 。 247 


2.1.2 选择 排序 


一 种 最 简单 的 排序 算法 是 这 样 的 : 首先 ， 找 到 数组 中 最 小 的 那个 元 素 ， 其 次 ， 将 它 和 数组 的 第 
一 个 元 素 交 换 位 置 ( 如 果 第 一 个 元 素 就 是 最 小 元 素 那么 它 就 和 自己 交换 ) 。 再 次 ， 在 剩 下 的 元 素 中 
找到 最 小 的 元 素 ， 将 它 与 数组 的 第 二 个 元 素 交 换 位 置 。 如 此 往复 ， 直 到 将 整个 数组 排序 。 这 种 方法 
叫做 选择 排序 ， 因 为 它 在 不 断 地 选择 剩余 元 素 之 中 的 最 小 者 。 

如 算法 2.1 所 示 ， 选 择 排序 的 内 循环 只 是 在 比较 当前 元 素 与 目前 已 知 的 最 小 元 素 ( 以 及 将 当前 
索引 加 1 和 检查 是 否 代码 越界 ) ， 这 已 经 简单 到 了 极点 。 交 换 元 素 的 代码 写 在 内 循环 之 外 ， 每 次 交 
换 都 能 排 定 一 个 元 素 ， 因 此 交换 的 总 次 数 是 N。 所 以 算法 的 时 间 效 率 取决 于 比较 的 次 数 。 
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命题 A。 对 于 长 度 为 N 的 数组 ， 选 择 排序 需要 大 约 N/2 次 比较 入 次 交换 。 


证 明 。 可 以 通过 算法 的 排序 轨迹 来 证 明 这 一 点 。 我 们 用 一 张 NXN 的 表格 来 表示 排序 的 轨迹 ( 见 
算法 2.1 下 部 的 表格 ) ， 其 中 每 个 非 灰 色 字 符 都 表示 一 次 比较 。 表 格 中 大 约 一 半 的 元 素 不 是 灰 
色 的 一 一 即 对 角 线 和 其 上 部 分 的 元 素 。 对 角 线 上 的 每 个 元 素 都 对 应 着 一 次 交换 。 通 过 查看 代码 
我 们 可 以 更 精确 地 得 到 ，0 到 N-1 的 任意 i 都 会 进行 一 次 交换 和 N-1-i 次 比较 ， 因 此 总 共有 NN 
次 交换 以 及 (N-1)+(N-2)+…+2+1=N(N-1)/2 ~ N22 次 比较 。 


总 的 来 说 ， 选 择 排序 是 一 种 很 容易 理解 和 实现 的 简单 排序 算法 ， 它 有 两 个 很 鲜明 的 特点 。 

运行 时 间 和 输入 无 关 。 为 了 找 出 最 小 的 元 素 而 扫描 一 遍 数 组 并 不 能 为 下 一 遍 扫 描 提 供 什么 信息 。 
这 种 性 质 在 某 些 情况 下 是 缺点 ， 因 为 使 用 选择 排序 的 人 可 能 会 惊讶 地 发 现 ， 一 个 已 经 有 序 的 数组 或 
是 主键 全 部 相等 的 数组 和 一 个 元 素 随 机 排列 的 数组 所 用 的 排序 时 间 竟然 一 样 长 ! 我 们 将 会 看 到 ， 其 
他 算法 会 更 善于 利用 输入 的 初始 状态 。 

数据 移动 是 最 少 的。 每 次 交换 都 会 改变 两 个 数组 元 素 的 值 ， 因 此 选择 排序 用 了 NN 次 交换 一 一 交 
换 次 数 和 数组 的 大 小 是 线性 关系 。 我 们 将 研究 的 其 他 任何 算法 都 不 具备 这 个 特征 ( 大 部 分 的 增长 数 
量 级 都 是 线性 对 数 或 是 平方 级 别 ) 。 


算法 2.1 选择 排序 


public class Selection 





public static void sort(Comparable[] a) 
{ // 将 a[] 按 升序 排列 
int N = a.length; // 数组 长 度 
for Cnt i ss OF 1 < Ne met 
{ // 将 ar[i 和 a[i+1..N] 中 最 小 的 元 素 交换 
int min = i; // 最 小 元 素 的 索引 
for (Cint j = i+l; j < N; j++) 
if (less(a[j], a[fmin])) min = j; 
exch(a, 1, min); 


} 
$ 
// less()、exch()、isSorted() 和 main() 方 法 见 “ 排 序 算 法 类 模板 ” 


该 算法 将 第 i 小 的 元 素 放 到 ar[i] 之 中 。 数 组 的 第 i 个 位 置 的 左边 是 i 个 最 小 的 元 素 且 它们 不 会 再 
被 访问 。 


a[] 

i min RN 

5 0 R T E X A M P L E /元 素 中 查找 最 小 值 
0 6 有 
1 4 下 :有 加 粗 的 元 
玉江 0 R T 0 x Ss M Pp L EE 素 都 是 a[min] 
3 9 节 
4 7 (I, 
5 7 :Ge 
6 8 SS 
7 并 人 X 号 第 R 
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S IT 
: T x 灰色 的 元 
.一 一 素 都 已 经 排 定 
10 10 X 
A 蕊 E ls M 0 Pp R 5 T X 
选择 排序 的 轨迹 (每 次 交换 后 的 数组 内 容 ) 249 


2.1.3 插入 排序 

通常 人 们 整理 桥牌 的 方法 是 一 张 一 张 的 来 , 将 每 一 张 牌 插入 到 其 他 已 经 有 序 的 牌 中 的 适当 位 置 。 
在 计算 机 的 实现 中 ， 为 了 给 要 插 人 的 元 素 腾 出 空间 ， 我 们 需要 将 其 余 所 有 元 素 在 插 和 人 之 前 都 向 右 移 
动 一 位 。 这 种 算法 叫做 插入 排序 ， 实 现 请 见 算法 2.2。 

与 选择 排序 一 样 ， 当 前 索引 左边 的 所 有 元 素 都 是 有 序 的 ， 但 它们 的 最 终 位置 还 不 确定 ， 为 了 给 
更 小 的 元 素 腾 出 空间 ， 它 们 可 能 会 被 移动 。 但 是 当 索 引 到 达 数 组 的 右 端 时 ， 数 组 排序 就 完成 了 。 

和 选择 排序 不 同 的 是 ， 插 人 排序 所 需 的 时 间 取 决 于 输入 中 元 素 的 初始 顺序 。 例 如 ， 对 一 个 很 大 
且 其 中 的 元 素 已 经 有 序 〈 或 接近 有 序 ) 的 数组 进行 排序 将 会 比 对 随机 顺序 的 数组 或 是 逆序 数组 进行 
排序 要 快 得 多 。 


命题 B。 对 于 随机 排列 的 长 度 为 V 且 主 键 不 重复 的 数组 ， 平 均 情况 下 插入 排序 需要 ~ NMWV4 次 比 
较 以 及 ~ N/4 次 交换 。 最 坏 情 况 下 需要 ~ NV2 次 比较 和 ~ N%2 次 交换 ， 最 好 情况 下 需要 N-1 
次 比较 和 0 次 交换 。 


证 明 。 和 命题 A 一 样 ， 通过 一 个 NXN 的 轨迹 表 可 以 很 容易 就 得 到 交换 和 比较 的 次 数 。 最 坏 情 
况 下 对 角 线 之 下 所 有 的 元 素 都 需要 移动 位 置 ， 最 好 情况 下 都 不 需要 。 对 于 随机 排列 的 数组 ， 在 
平均 情况 下 每 个 元 素 都 可 能 向 后 移动 半 个 数组 的 长 度 ， 因 此 交换 总 数 是 对 角 线 之 下 的 元 素 总 数 
的 二 分 之 一 。 

比较 的 总 次 数 是 交换 的 次 数 加 上 一 个 额外 的 项 ， 该 项 为 入 减 去 被 插入 的 元 素 正 好 是 已 知 的 最 小 
元 素 的 次 数 。 在 最 坏 情况 下 (逆序 数组 ) ， 这 一 项 相对 于 总 数 可 以 忽略 不 计 ; 在 最 好 情况 下 ( 数 
组 已 经 有 序 ) ， 这 一 项 等 于 N-1。 


插入 排序 对 于 实际 应 用 中 常见 的 某 些 类 型 的 非 随机 数组 很 有 效 。 例 如 ， 正 如 刚才 所 提 到 的 ， 想 
想 当 你 用 插入 排序 对 一 个 有 序数 组 进行 排序 时 会 发 生 什么 。 插 入 排序 能 够 立即 发 现 每 个 元 素 都 已 经 
在 合适 的 位 置 之 上 , 它 的 运行 时 间 也 是 线性 的 ( 对 于 这 种 数组 , 选择 排序 的 运行 时 间 是 平方 级 别 的 ) 。 
对 于 所 有 主键 都 相同 的 数组 也 会 出 现 相同 的 情况 ( 因此 命题 B 的 条 件 之 一 就 是 主键 不 重复 ) 。 250 


算法 2.2 插入 排序 





public class Insertion 
省 
public static void sort(Comparable[] a) 
{ // 将 a[] 按 升序 排列 
int N = a.length; 
for int 全 ly Ta 1) 
{ // 将 a[i] 插入 到 a[i-1]、a[i-2]、a[i-3]... 之 中 
for (int j = i; j 3 0 & lessCa[j], a[i-1]); j==) 
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exch(a,; j, j=1); 
} 


于 
// less()、exch()、isSorted() 和 main() 方 法 见 “ 排 序 算法 类 模板 ” 


} 
对 于 0 到 N-1 之 间 的 每 一 个 i, 将 a[i] 与 a[0] 到 a[i-1] 中 比 它 小 的 所 有 元 素 依次 有 序 地 交换 。 
在 索引 i 由 左 向 右 变 化 的 过 程 中 , 它 左 侧 的 元 素 总 是 有 序 的 , 所 以 当 1 到达 数 组 的 右 端 时 排序 就 完成 了 。 


a[] 

让 二 5 6 7 8 10 

名 而 A MP LE 灰色 的 元 
全 全 -一 素 不 会 移动 
二 R Ss 
3 3 T 
4 加 粗 的 元 
号 X 素 就 是 a[j] 
6 0 hE WRS TT Xx 
7 | ,0 C0 ee 玉 为 了 插入 新 的 元 
著 ” 前 PR 和 .一 素 ， 黑色 的 元 素 
和 之 EE 守信 BP 玉芝 六 都 向 右 移动 了 一 格 
20 2 由 生生 记忆 于 定 % 

A 宇 二 七 油 Pp S$ TX 


插入 排序 的 轨迹 (每 次 插入 后 的 数组 内 容 ) 





我 们 要 考虑 的 更 一 般 的 情况 是 部 分 有 序 的 数组 。 倒 置 指 的 是 数组 中 的 两 个 顺序 颠倒 的 元 素 。 比 
如 EXAMPLE 中 有 11 对 倒置 E-A、X-A、X-M、X-P、X-L、X-E、M-L、M-E、P-L、P-E 
以 及 L-E。 如 果 数 组 中 倒置 的 数量 小 于 数组 大 小 的 某 个 倍数 ， 那 么 我 们 说 这 个 数组 是 部 分 有 序 的 。 
下 面 是 几 种 典型 的 部 分 有 序 的 数组 : 

口 数组 中 每 个 元 素 距离 它 的 最 终 位 置 都 不 远 ; 

口 一 个 有 序 的 大 数组 接 一 个 小 数组 ; 

口 数组 中 只 有 几 个 元 素 的 位 置 不 正确 。 

插入 排序 对 这 样 的 数组 很 有 效 ， 而 选择 排序 则 不 然 。 事 实 上 ， 当 倒置 的 数量 很 少时 ,插入 排序 
很 可 能 比 本 章 中 的 其 他 任何 算法 都 要 快 。 


命题 C。 插 入 排序 需要 的 交换 操作 和 数组 中 倒置 的 数量 相同 ， 需 要 的 比较 次 数 大 于 等 于 倒置 的 
数量 ， 小 于 等 于 倒置 的 数量 加 上 数组 的 大 小 再 减 一 。 


证 明 。 每 次 交换 都 改变 了 两 个 顺序 颠倒 的 元 素 的 位 置 ， 相 当 于 减少 了 一 对 倒置 ， 当 倒置 数量 为 
0 时 ， 排 序 就 完成 了 。 每 次 交换 都 对 应 着 一 次 比较 ， 且 工 到 N-1 之 间 的 每 个 j 都 可 能 需要 一 次 
额外 的 比较 (在 a[i] 没有 达到 数组 的 左 端 时 ) 。 


要 大 幅 提 高 插入 排序 的 速度 并 不 难 ， 只 需要 在 内 循环 中 将 较 大 的 元 素 都 向 右 移动 而 不 总 是 交换 
两 个 元 素 〈 这 样 访问 数组 的 次 数 就 能 减 半 ) 。 我 们 把 这 项 改进 留 做 一 个 练习 ( 请 见 练习 2.1.25 ) 。 
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总 的 来 说 ， 插 和 人 排序 对 于 部 分 有 序 的 数 I [本 thal 
组 十 分 高 效 , 也 很 适合 小 规模 数组 。 这 很 重要 ， | honda 
因为 这 些 类 型 的 数组 在 实际 应 用 中 经 常 出 现 ， il a 
而 且 它 们 也 是 高 级 排序 算法 的 中 间 过 程 。 我 | i | | |] [四 [出 | 
们 会 在 学 习 高 级 排序 算法 时 再 次 接触 到 插入 ail | aaa 
排序 。 nil bb IITA 
2.1.4 “排序 算法 的 可 视 化 

在 本 章 中 我 们 会 使 用 一 种 简单 的 图 示 来 帮 lll hhh 
助 我 们 说 明 排序 算法 的 性 质 。 我 们 没有 使 用 字 i in 
母 、 数 字 或 是 单词 这 样 的 键 值 来 跟踪 排序 的 进 i In 
程 ， 而 使 用 了 棒状 图 ， 并 以 它们 的 高 矮 来 排序 。 省 hh 
这 种 表示 方法 的 好 处 是 能 够 使 排序 过 程 一 目 nn 加 | 
了 然 。 Ha 一 

如 图 2.1.1 所 示 ， 插 入 排序 不 会 访问 索引 NN 各 色 的 元 素 IIT 
右 侧 的 元 素 ， 而 选择 排序 不 会 访问 索引 左 侧 的 INN 参与 了 比较 Hl 
元 素 。 另外， 在 这 种 可 视 化 的 轨迹 图 中 可 以 看 er I 
到 ， 因 为 插入 排序 不 会 移动 比 被 插入 的 元 素 更 | 四 
小 的 元 素 ， 它 所 需 的 比较 次 数 平均 只 有 选择 排 jll I 
序 的 一 半 。 

用 我 们 的 StdDraw 库 画 出 一 张 可 视 轨迹 mm 
图 并 不 比 追 踪 一 次 算法 的 运行 轨迹 难 多 少 。 将 短信 持 序 i 
Double 值 排序 ， 并 在 适当 的 时 候 指示 算法 调 


图 2.1.1 初级 排序 算法 的 可 视 轨 迹 图 ( 另 见 彩 揪 ) 
用 show() 方法 (和 追踪 算法 的 轨迹 时 一 样 ) ， 
然后 开发 一 个 使 用 StdDraw 来 绘制 棒状 图 而 不 是 打印 结果 的 showQ 方法 。 最 复杂 的 部 分 是 设置 y 
和 请 通过 练习 2.1.18 来 更 好 地 理解 可 视 轨 迹 图 的 价值 和 
使 用 。 

将 轨迹 变 成 动画 ， 理 解 起 来 就 更 加 简单 ， 这 样 可 以 看 到 动态 演化 到 有 序 状态 的 过 程 。 产 生 轨 迹 
动画 的 过 程 本 质 上 和 上 一 段 所 描述 的 相同 ， 但 不 需要 担心 轴 的 问题 (只 需 每 次 控 除 窗口 中 的 内 容 
并 重 绘 棒状 图 即 可 )。 尽 管 我 们 无 法 在 书 中 展现 这 些 动 画 , 它们 对 于 理解 算法 的 工作 原理 也 很 有 帮助 ， 
你 能 通过 练习 2.1.17 体会 这 一 点 。 252 


2.1.5 ”比较 两 种 排序 算法 


现在 我 们 已 经 实现 了 两 种 排序 算法 ,我 们 很 自然 地 想 知道 选择 排序 (算法 2.1 ) 和 插入 排序 ( 算 
法 2.2 ) 哪 种 更 快 。 这 个 问题 在 学 习 算 法 的 过 程 中 会 反复 出 现 ， 也 是 本 书 的 重点 之 一 。 我 们 已 经 在 
第 1 章 中 讨论 过 一 些 基 本 的 概念 ， 这 里 我 们 第 一 次 用 实践 说 明 我 们 解决 这 个 问题 的 办 法 。 一 般 来 说 ， 
根据 1.4 节 所 介绍 的 方法 ， 我 们 将 通过 以 下 步 又 比较 两 个 算法 : 

口 实现 并 调试 它们 ; 

口 分 析 它 们 的 基本 性 质 ; 

口 对 它们 的 相对 性 能 作出 猜想 ; 
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口 用 实验 验证 我 们 的 猜想 。 

这 些 步 又 都 是 经 过 时 间 检 验 的 科学 方法 ， 只 是 现在 是 运用 在 算法 研究 之 上 。 

现在 ,算法 2.1 和 算法 2.2 表示 已 经 实现 了 第 一 步 ， 命 题 A、 命 题 B 和 命题 C 组 成 了 第 二 步 ， 
下 面 的 性 质 D 将 是 第 三 步 ， 之 后 “比较 两 种 排序 算法 ”的 SortCompare 类 将 会 完成 第 四 步 。 这 些 
行为 都 是 紧密 相关 的 。 

在 这 些 简洁 的 步 又 之 下 是 大 量 的 算法 实现 、 调 试 分析 和 测试 工作 。 每 个 程序 员 都 知道 只 有 经 过 
长 期 的 调试 和 改进 才能 得 到 这 样 的 代码 ， 每 个 数学 家 都 知道 正确 分 析 的 难度 ， 每 个 科学 家 也 都 知道 
从 提出 猜想 到 设计 并 执行 实验 来 验证 它们 是 多 么 费心 。 只 有 研究 那些 最 重要 的 算法 的 专家 才 会 经 历 
完整 的 研究 过 程 ， 但 每 个 使 用 算法 的 程序 员 都 应 该 了 解 算法 的 性 能 特性 背后 的 科学 过 程 。 

实现 了 算法 之 后 ， 下 一 步 我 们 需要 确定 一 个 适当 的 输入 模型 。 对 于 排序 ， 命 题 A、 命 题 B 和 命 
题 C 用 到 的 自然 输入 模型 假设 数组 中 的 元 素 随机 排序 ， 且 主键 值 不 会 重复 。 对 于 有 很 多 重复 主键 的 
应 用 来 说 ， 我 们 需要 一 个 更 加 复杂 的 模型 。 

如 何 估计 插入 排序 和 选择 排序 在 随机 排序 数组 下 的 性 能 呢 ? 通过 算法 2.1 和 算法 2.2 以 及 命题 
A、 命 题 B 和 命题 C 可 以 发 现 ， 对 于 随机 排序 数组 ， 两 者 的 运行 时 间 都 是 平方 级 别 的 。 也 就 是 说 ， 
在 这 种 输入 下 插入 排序 的 运行 时 间 和 和 乘 以 一 个 小 常数 成 正比 ， 选 择 排序 的 运行 时 间 和 NM 乘 以 另 
一 个 小 常数 成 比例 。 这 两 个 常数 的 值 取决 于 所 使 用 的 计算 机 中 比较 和 交换 元 素 的 成 本 。 对 于 许多 数 
据 类 型 和 一 般 的 计算 机 ， 可 以 假设 这 些 成 本 是 相近 的 (但 我 们 也 会 看 到 一 些 大 不 相同 的 例外 ) 。 因 
此 我 们 直接 得 出 了 以 下 猜想 。 


性 质 D。 对 于 随机 排序 的 无 重复 主键 的 数组 ， 插 入 排序 和 选择 排序 的 运行 时 间 是 平方 级 别 的 ， 
两 者 之 比 应 该 是 一 个 较 小 的 常数 。 


例证 。 这 个 结论 在 过 去 的 半 个 世纪 中 已 经 在 许多 不 同类 型 的 计算 机 上 经 过 了 验证 。 在 1980 年 
本 书 第 1 版 完成 之 时 插入 排序 就 比 选择 排序 快 一 倍 ， 现 在 仍然 是 这 样 ， 尽 管 那 时 这 些 算法 将 10 
万 条 数据 排序 需要 几 个 小 时 而 现在 只 需要 几 秒 钟 。 在 你 的 计算 机 上 插入 排序 也 比 选 择 排序 快 一 
些 吗 ? 可 以 通过 SortCompare 类 来 检测 。 它 会 使 用 由 命令 行 参 数 指定 的 排序 算法 名 称 所 对 应 的 
sort() 方法 进行 指定 次 数 的 实验 ( 将 指定 大 小 的 数组 排序 ) ， 并 打印 出 所 观察 到 的 各 种 算法 的 
运行 时 间 的 比例 。 


为 了 证 明 这 一 点 ， 我 们 用 blic static double time(Stri gs © ble[] a) 
ublic static double time(String alg, Comparable[] a 
SortCompare ( 见 “ 比 较 两 种 排 i ‘ 
序 算法 ”) 来 做 几 次 实验 。 我 们 Stopwatch timer = new Stopwatch(); 
、 if (alg.equals("Insertion")) Insertion.sort(a); 
使 用 Stopwatch 来 计时 ， 右 侧 的 if (alg.equals("Selection")) Selection.sort(a); 
time() 函数 的 任务 是 调用 本 章 中 if (alg.equals("She11")) She11.sort(a) ; 
if (alg.equals("Merge")) Merge.sort(a); 
的 几 种 简单 排序 算法 。 if (alg.equals("Quick")) Quick. sort(a); 
随机 数组 的 输入 模型 由 if (alg.equals("Heap")) Heap. sort(a); 
. return timer.elapsedTime(); 
SortCompare 类 中 的 timeRandom- 下 


Input(0) 方法 实现 。 这 个 方法 会 
生成 随机 的 Double 值 , 将 它们 排 针对 给 定 输入 , 为 本 章 中 的 一 种 排序 算法 计时 
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序 ， 并 返回 指定 次 测试 的 总 时 间 。 使 用 0.0 至 1.0 之 间 的 随机 Double 值 比 使 用 类 似 于 StdRandom. 
shuffle() 的 库 函 数 更 简单 有 效 ， 因 为 这 样 几乎 不 可 能 产生 相等 的 主键 值 ( 请 见 练习 2.5.31) 。 如 
第 1 章 中 所 讨论 的 ， 用 命令 行 参数 指定 重复 次 数 的 好 处 是 能 够 运行 大 量 的 测试 测试 次 数 越 多 ， 每 
遍 测 试 所 需 的 平均 时 间 就 越 接近 于 真实 的 平均 数据 ) 并 且 能 够 减 小 系统 本 身 的 影响 。 你 应 该 在 自己 
的 计算 机 上 用 SortCompare 进行 实验 ， 来 了 解 关于 插入 排序 和 选择 排序 的 结论 是 否 成 立 。 


比较 两 种 排序 算法 


public class SortCompare 

{ 
public static double time(String alg, Double[] a) 
{ /* 请 见 前 面 的 正文 */ } 


public static double timeRandomInput(String alg, int N, int T) 
{ // 使 用 算法 1 将 T 个 长 度 为 N 的 数组 排序 
double total = 0.0; 
Double[] a = new Double[N]; 
for Cint tOF tT ths) 
{ // 进行 一 次 测试 (生成 一 个 数组 并 排序 ) 
for (int i = 0; i < N; i++) 
a[i] = StdRandom.uniform() ; 
total += time(alg, a); 
} 
return total; 


‘ 


public static void main(String[] args) 

区 
String algl = args[0]; 
String alg2 = args[1]; 
int N = Integer.parseInt(args[2]); 
int T = Integer.parseInt(args[3]); 
double tlL = timeRandomInput(al1g1，N，T); // 算法 1 的 总 时 间 
double t2 = timeRandomInput(alg2，N，T); // 算法 2 的 总 时 间 
StdOut.printf( “For %d random Doubles\n %s is” ,， N, algl); 
StdOut.printf( “ %.1f times faster than %s\n” ,， t2/t1, alg2); 

} 

} 


这 个 用 例会 运行 由 前 两 个 命令 行 参数 指定 的 排序 算法 ， 对 长 度 为 N ( 由 第 三 个 参数 指定 ) 的 Double 
型 随机 数组 进行 排序 ， 元 素 值 均 在 0.0 到 1.0 之 间 ,， 重复 了 次 ( 由 第 四 个 参数 指定 ) ， 然 后 输出 总 运行 时 
间 的 比例 。 


% java SortCompare Insertion Selection 1000 100 
For 1000 random Doubles 
Insertion is 1.7 times faster than Selection 


我 们 故意 将 性 质 D 描述 得 不 够 明确 一 一 没有 说 明 那 个 小 常量 的 值 ， 以 及 对 比较 和 交换 的 成 本 相 
近 的 假设 ,这 样 性 质 D 才能 广泛 适用 于 各 种 情况 。 可 能 的 话 ， 我 们 会 尽量 用 这 样 的 语言 来 抓 住 我 们 
所 研究 的 每 个 算法 的 性 能 的 本 质 。 如 第 1 童 中 讨论 的 那样 ， 我 们 提出 的 每 个 性 质 都 需要 在 特定 的 场 
景 中 进行 科学 测试 ， 也 许 还 需要 用 一 个 基于 相关 命题 ( 数学 定理 ) 的 猜想 进行 补充 。 
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对 于 实际 应 用 ， 还 有 一 个 很 重要 的 步 又， 那 就 是 用 实际 数据 在 实验 中 验证 我 们 的 猜想 。 我 们 会 
在 2.5 节 和 练习 中 再 考虑 这 一 点 。 在 这 种 情况 下 ， 当 主键 有 重复 或 是 排列 不 随机 ， 人 性质 D 就 可 能 会 
不 成 立 。 可 以 使 用 StdRandom.shuffle() 来 将 一 个 数组 打 乱 ， 但 有 大 量 重复 主键 的 情况 则 需要 更 
加 细致 的 分 析 。 

我 们 对 算法 分 析 的 讨论 是 抛砖引玉 ， 而 非 盖 棺 定论 。 如 果 你 想到 了 关于 算法 性 能 的 其 他 问题 ， 
可 以 用 SortCompare 等 工具 来 研究 它 ， 后 面 的 练习 为 你 提供 了 许多 机 会 。 

插入 排序 和 选择 排序 的 性 能 比较 就 讨论 到 这 里 ， 还 存在 许多 比 它们 快 成 千 上 万 倍 的 算法 ， 我们 
对 此 会 更 感 兴趣 。 当 然 ， 仍 然 有 必要 学 习 这 些 初 级 算法 ， 因 为 : 

口 它们 帮助 我 们 建立 了 一 些 基本 的 规则 ; 

口 它们 展示 了 一 些 性 能 基准 ; 

口 在 某 些 特殊 情况 下 它们 也 是 很 好 的 选择 ; 

口 它们 是 开发 更 强大 的 排序 算法 的 基石 。 

因此 ， 不 止 是 排序 ， 对 于 本 书 中 的 每 个 问题 我 们 都 会 沿用 这 种 方式 ， 首 先 学 习 的 就 是 最 初级 的 
相关 算法 。SortCompare 这 样 的 程序 对 于 这 种 渐进 式 的 算法 研究 十 分 重要 。 每 一 步 ， 我 们 都 能 用 这 
类 程序 来 了 解 新 的 或 是 改进 后 的 算法 的 性 能 是 否 产生 了 预期 的 进步 。 


2.1.6 希 尔 排序 


为 了 展示 初级 排序 算法 性 质 的 价值 ， 接 下 来 我 们 将 学 习 一 种 基于 插入 排序 的 快速 的 排序 算法 。 
对 于 大 规模 乱 序数 组 插入 排序 很 慢 ， 因 为 它 只 会 交换 相 邻 的 元 素 ， 因 此 元 素 只 能 一 点 一 点 地 从 数组 
的 一 端 移动 到 另 一 端 。 例 如 ， 如 果 主 键 最 小 的 元 素 正 好 在 数组 的 尽头 ， 要 将 它 挪 到 正确 的 位 置 就 需 
要 NM-I 次 移动 。 希 尔 排序 为 了 加 快速 度 简单 地 改进 了 插入 排序， 交换 不 相 邻 的 元 素 以 对 数组 的 局 部 
进行 排序 ， 并 最 终 用 插入 排序 将 局 部 有 序 的 数组 排序 。 
希 尔 排 序 的 思想 是 使 数组 中 任意 间隔 为 h 的 元 素 都 是 有 序 的 。 这 样 的 数组 被 称 为 h 有 序数 组 。 换 
句 话 说， 一 个 h 有 序数 组 就 是 h 个 互相 独立 的 有 序数 组 编织 在 一 起 组 成 的 一 个 数组 ( 见 图 2.1.2 ) 。 
在 进行 排序 时 ， 如 果 h 很 大 ， 我 们 就 能 将 元 素 移动 到 很 远 的 地 方 ， 为 实现 更 小 的 h 有 序 创造 方便 。 用 
这 种 方式 ， 对 于 任意 以 1 结尾 的 h 序列 ， 我 们 都 能 够 将 数组 排序 。 这 就 是 希 尔 排序 。 算 法 2.3 的 实现 
使 用 了 序列 1/2(3 生 1 ) ， 从 W3 开始 递减 至 1。 我 们 把 这 个 序列 称 为 递增 序列 。 算 法 2.3 实时 计算 了 
它 的 递增 序列 ， 另 一 种 方式 是 将 递增 序列 存储 在 一 个 数组 中 。 
h=4 
全 
1 一 一 一 一 M 一 一 pP 一 一 一 一 T 
E 一 HH 一 一 


[> 
un 
-+ 


N===== 和 = 
图 2.1.2 一 个 h 有 序数 组 即 一 个 由 h 个 有 序 子 数组 组 成 的 数组 


实现 希 尔 排序 的 一 种 方法 是 对 于 每 个 h， 用 插入 排序 将 h 个 子 数组 独立 地 排序 。 但 因为 子 数 组 
是 相互 独立 的 ， 一 个 更 简单 的 方法 是 在 h- 子 数 组 中 将 每 个 元 素 交 换 到 比 它 大 的 元 素 之 前 去 (将 比 它 
大 的 元 素 向 右 移动 一 格 ) 。 只 需要 在 插入 排序 的 代码 中 将 移动 元 素 的 距离 由 1 改 为 hn 即 可 。 这 样 ， 希 
尔 排序 的 实现 就 转化 为 了 一 个 类 似 于 插入 排序 但 使 用 不 同 增 量 的 过 程 。 

希 尔 排序 更 高 效 的 原因 是 它 权衡 了 子 数 组 的 规模 和 有 序 性 。 排 序 之 初 ， 各 个 子 数组 都 很 短 ， 排 
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序 之 后 子 数组 都 是 部 分 有 序 的 ， 这 两 种 情况 都 很 适合 插入 排序 。 子 数组 部 分 有 序 的 程度 取决 于 递增 
序列 的 选择 。 透 彻 理解 希 尔 排序 的 性 能 至 今 仍然 是 一 项 挑战 。 实 际 上 ， 算 法 2.3 是 我 们 唯一 无 法 准 
确 描述 其 对 于 乱 序 的 数组 的 性 能 特征 的 排序 方法 。 


算法 2.3 希 尔 排序 





public class Shell 
public static void sort(Comparable[] ay) 
{ // 将 a[] 按 升序 排列 
int N = a.length; 
了 而 衣 村 各 
while (h < N/3) h = 3*h + 1; // 1, 4, 13, 40, 121, 364, 1093, ... 
while (h >= 1) 
{ // 将 数组 变 为 h 有 序 
OP 二 
{ // 将 a[i] 插 入 到 a[i-h]，a[i-2*h]，a[i-3*h]... 之 中 
for (Cint ] = 1; j >= h && less(a[j], a[j=h]); j == h) 
exch(a, j, j-h); 


// less()、exch()、isSorted() 和 main(《) 方 法 见 “ 排 序 算 法 类 模板 ” 
} 


如 果 我 们 在 插入 排序 ( 算法 2.2 ) 中 加 入 一 个 外 循环 来 将 h 按照 递增 序列 递减 ， 我 们 就 能 得 到 这 个 
简洁 的 希 尔 排 序 。 增 幅 h 的 初始 值 是 数组 长 度 乘 以 一 个 常数 因子 ， 最 小 为 1。 


% java SortCompare Shel11 Insertion 100000 100 
For 100000 random Doubles 
Shell is 600 times faster than Insertion 


输入 Ss HELL 0 | | 3 

l3-sort P H E L :| | = .I | 

00 此 0 .| 0 下 了 用 区 | i 区 基 - 民 

1l-sort A E E E CO) 2 /A 6 > | RS 
希 尔 排序 的 轨迹 〈 每 遍 排 序 后 的 数组 内 容 ) 








如 何 选择 递增 序列 呢 ? 要 回答 这 个 问题 并 不 简单 。 算 法 的 性 能 不 仅 取决 于 h， 还 取决 于 h 之 间 
的 数学 性 质 ， 比 如 它们 的 公 因子 等 。 有 很 多 论文 研究 了 各 种 不 同 的 递增 序列 ， 但 都 无 法 证 明 某 个 序 
列 是 “最 好 的 ”。 算 法 2.3 中 递增 序列 的 计算 和 使 用 都 很 简单 ， 和 复杂 递增 序列 的 性 能 接近 。 但 可 
以 证 明 复 杂 的 序列 在 最 坏 情况 下 的 性 能 要 好 于 我 们 所 使 用 的 递增 序列 。 更 加 优秀 的 递增 序列 有 待 我 
们 去 发 现 。 

和 选择 排序 以 及 插入 排序 形成 对 比 的 是 ， 希 尔 排 序 也 可 以 用 于 大 型 数组 。 它 对 任意 排序 ( 不 一 定 
是 随机 的 ) 的 数组 表现 也 很 好 。 实 际 上 ， 对 于 一 个 给 定 的 递增 序列 ， 构 造 一 个 使 希 尔 排序 运行 缓慢 的 
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数组 并 不 容易 。 希 尔 排 序 的 轨迹 如 图 2.1.3 所 示 ， 可 视 轨 迹 如 图 2.1.4 所 示 。 


输入 1 了 
l3-sort Pp S 
E 
E 
4-sort | P 
S 
0 
R 
T 
E H 3 
X 
A E R 
M R k 
S 
L 0 X 
E 上 R 
l-sort FE L 
:小 
A EE 
M 
H L M 
L M 
E 宗 渍 二 洲 
Pp 
Ss 
0 站 - 忆 起 
| WE 0 
工 
和 
X 
Kt 7 而 一式 
结果 和 站 


图 2.1.3 希 尔 排 序 的 详细 轨迹 (各 种 插入 ) 


通过 SortCompare 可 以 看 到 ，, 希 尔 排序 比 插 入 排序 和 选择 排序 要 快 得 多 ， 并且 数组 越 大 ， 优 
势 越 大 。 在 继续 学 习 之 前 ， 请 在 你 的 计算 机 上 用 SortCompare 比较 一 下 希 尔 排 序 和 插入 排序 以 及 
选择 排序 的 性 能 ， 数 组 的 大 小 按照 2 的 震 次 递增 〈 见 练习 2.1.27 ) 。 你 会 看 到 希 尔 排序 能 够 解决 一 
些 初级 排序 算法 无 能 为 力 的 问题 。 这 个 例子 是 我 们 第 一 次 用 实际 应 用 说 明 一 个 贯穿 本 书 的 重要 理念 : 
通过 提升 速度 来 解决 其 他 方式 无 法 解决 的 问题 是 研究 算法 的 设计 和 性 能 的 主要 原因 之 一 。 

研究 希 尔 排序 性 能 需要 的 数学 论证 超出 了 本 书 范围 。 如 果 你 不 相信 ， 可 以 从 证 明 下 面 这 一 点 开 
始 : 当 一 个 “h 有 序 ” 的 数组 按照 增幅 k 排序 之 后 ， 它 仍然 是 “h 有 序 ” 的 。 至 于 算法 2.3 的 性 能 ， 
目前 最 重要 的 结论 是 它 的 运行 时 间 达 不 到 平方 级 别 。 例 如 ， 已 知 在 最 坏 的 情况 下 算法 2.3 的 比较 次 数 
和 “成 正比 。 有 意思 的 是 ， 由 插入 排序 到 希 尔 排序 ， 一 个 小 小 的 改变 就 突破 了 平方 级 别 的 运行 时 间 
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的 屏障 。 这 正 是 许多 算法 设计 问题 想 要 达到 的 目标 。 


输入 


| lal 
40-sorted 


13-sort 


ed 
eo 


4-sorted 


rte 


2.1.4 和 希 尔 排序 的 可 视 轨迹 


在 输入 随机 排序 数组 的 情况 下 ， 我 们 在 数学 上 还 不 知道 希 尔 排序 所 需要 的 平均 比较 次 数 。 人 们 
发 明了 很 多 递增 序列 来 渐进 式 地 改进 最 坏 情况 下 所 需 的 比较 次 数 ( N”, N,N%… ) ， 但 这 些 结论 
大 多 只 有 学 术 意 义 ， 因 为 对 于 实际 应 用 中 的 来 说 它们 的 递增 序列 的 生成 函数 (以 及 与 W 乘 以 一 
个 常数 因子 ) 之 间 的 区 别 并 不 明显 。 

在 实际 应 用 中 ,使 用 算法 2.3 中 的 递增 序列 基本 就 足够 了 (或 者 是 本 节 最 后 的 练习 中 提供 的 一 个 递 
增 序列 ， 它 可 能 可 以 将 性 能 改进 20% ~ 40% ) 。 另 外 ， 很 容易 就 能 验证 下 面 这 个 猜想 。 
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性 质 E。 使 用 递增 序列 1, 4, 13, 40, 121, 364… 的 希 尔 排序 所 需 的 比较 次 数 不 会 超出 NN 的 若干 倍 
乘 以 递增 序列 的 长 度 。 


例证 。 记 录 算 法 2.3 中 比较 的 数量 并 将 其 除 以 使 用 的 序列 长 度 是 一 道 简单 的 练习 (请 见 练习 
2.1.12 ) 。 大 量 的 实验 证 明 平 均 每 个 增幅 所 带 来 的 比较 次 数 约 为 NV”, 但 只 有 在 入 很 大 的 时 候 这 
个 增长 幅度 才 会 变 得 明显 。 这 个 性 质 似乎 也 和 输入 模型 无 关 。 


有 经 验 的 程序 员 有 时 会 选择 希 尔 排序 ， 因 为 对 于 中 等 大 小 的 数组 它 的 运行 时 间 是 可 以 接受 的 。 
它 的 代码 量 很 小 ， 且 不 需要 使 用 额外 的 内 存 空 间 。 在 下 面 的 几 节 中 我 们 会 看 到 更 加 高 效 的 算法 ， 但 
除了 对 于 很 大 的 N， 它 们 可 能 只 会 比 希 尔 排序 快 两 倍 ( 可 能 还 达 不 到 ) ， 而 且 更 复杂 。 如 果 你 需要 
解决 一 个 排序 问题 而 又 没有 系统 排序 函数 可 用 ( 例如 直接 接触 硬件 或 是 运行 于 能 入 式 系统 中 的 代 
码 ) ， 可 以 先 用 希 尔 排序 ， 然 后 再 考虑 是 否 值得 将 它 替 换 为 更 加 复杂 的 排序 算法 。 [262| 
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图 答 经 


问 
答 


了 可 


问 


排序 看 起 来 是 个 很 简单 的 问题 ， 我 们 用 计算 机 不 是 可 以 做 很 多 更 有 意思 的 事情 吗 ? 

也 许 吧 ， 但 快速 的 排序 算法 才 使 得 那些 更 有 意思 的 事情 成 为 可 能 。 在 2.5 节 以 及 全 书 的 其 他 章节 你 
都 可 以 找到 很 多 这 样 的 例子 。 排 序 算法 今天 仍然 值得 我 们 学 习 是 因为 它 易 于 理解 ， 你 能 从 中 领会 到 
许多 精妙 之 处 。 

为 什么 有 这 么 多 排序 算法 ? 

原因 之 一 是 许多 排序 算法 的 性 能 都 和 输入 模型 有 很 大 的 关系 ， 因 此 不 同 的 算法 适用 于 不 同 应 用 场景 中 的 
不 同 输入 。 例 如 ， 对 于 部 分 有 序 和 小 规模 的 数组 应 该 选择 插入 排序 。 其 他 限制 条 件 ， 例 如 空间 和 重复 的 
主键 ， 也 都 是 需要 考虑 的 因素 。 我 们 将 会 在 2.5 节 中 再 次 讨论 这 个 问题 。 

为 什么 要 使 用 1ess() 和 exch() 这 些 不 起 眼 的 辅助 函数 ? 

它们 抽象 了 所 有 排序 算法 都 会 用 到 的 共同 操作 ， 这 种 抽象 使 得 代码 更 便于 理解 。 而 且 它 们 增强 了 代 
码 的 可 移植 性 。 例 如 ， 算 法 2.1 和 算法 2.2 中 的 大 部 分 代码 在 其 他 几 种 编程 语言 中 也 是 可 以 执行 的 。 
即使 是 在 Java 中 ， 只 要 将 1ess0) 实现 为 v < w， 这 些 算法 的 代码 就 可 以 将 不 支持 Comparable 接 
口 的 基本 数据 类 型 排序 了 。 

当 我 运行 SortCompare 时 ， 每 次 的 结果 都 不 一 样 〈 而 且 和 书 上 的 也 不 相同 ) ， 为 什么 ? 

对 于 初学 者 ， 你 的 计算 机 和 我 们 的 计算 机 不 同 ， 操 作 系统 、Java 运行 时 环境 等 都 不 一 样 。 这 些 不 同 
可 能 导致 算法 代码 生成 的 机 器 码 不 同 。 每 次 运行 所 得 结果 不 同 的 原因 可 能 在 于 当时 运行 的 其 他 程序 
或 是 很 多 其 他 原因 。 大 量 的 重复 实验 可 以 淡化 这 种 干扰 ， 我 们 的 经 验 是 现 如 今 算法 性 能 的 微小 差异 
很 难 观 察 。 这 就 是 我 们 要 关注 较 大 差异 的 原因 。 


2.1.1 按照 算法 2.1 所 示 轨 迹 的 格式 给 出 选择 排序 是 如 何 将 数组 EA SYQUESTION 排序 的 。 
2.1.2 ”在 选择 排序 中 ， 一 个 元 素 最 多 可 能 会 被 交换 多 少 次 ? 平均 可 能 会 被 交换 多 少 次 ? 
2.1.3 构造 一 个 含有 N 个 元 素 的 数组 ， 使 选择 排序 ( 算法 2.1 ) 运行 过 程 中 a[j] < a[min]) (由 此 min 


会 不 断 更 新 ) 成 功 的 次 数 最 大 。 


2.1.4 按照 算法 2.2 所 示 轨 迹 的 格式 给 出 插入 排序 是 如 何 将 数组 E ASYQUESTION 排 序 的 。 
2.1.5 ”构造 一 个 含 及 个 元 素 的 数组 ,使 插入 排序 (算法 2.2 ) 运行 过 程 中 内 循环 ( for ) 的 两 个 判断 结 


果 总 是 假 。 


2.1.6 在 所 有 的 主键 都 相同 时 ， 选 择 排序 和 插入 排序 谁 更 快 ? 
2.1.7 ”对 于 逆序 数组 ， 选 择 排序 和 插入 排序 谁 更 快 ? 
2.1.8 假设 元 素 只 可 能 有 三 种 值 ， 使 用 插入 排序 处 理 这 样 一 个 随机 数组 的 运行 时 间 是 线性 的 还 是 平方 级 


别 的 ? 或 是 介 于 两 者 之 间 ? 


2.1.9 按照 算法 2.3 所 示 轨 迹 的 格式 给 出 希 尔 排序 是 如 何 将 数组 EASYSHELLSORTQUE 


STION 排序 的 。 


2.1.10 在 希 尔 排序 中 为 什么 在 实现 h 有 序 时 不 使 用 选择 排序 ? 
2.1.11 将 希 尔 排序 中 实时 计算 递增 序列 改 为 预先 计算 并 存储 在 一 个 数组 中 。 
2.1.12 令 希 尔 排序 打印 出 递增 序列 的 每 个 元 素 所 带 来 的 比较 次 数 和 数组 大 小 的 比值 。 编 写 一 个 测试 用 


例 对 随机 Double 数组 进行 希 尔 排序 ， 验 证 该 值 是 一 个 小 常数 ， 数 组 大 小 按照 10 的 宕 次 递增 ， 
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不 小 于 100。 


图 提高 是 


2.1.13 


2.1.14 


2.1.15 


2.1.16 


2,1:17 


2.1.18 


2.1:19 


2.1.20 
2.1.21 


2.1.22 


纸牌 排序 。 说 说 你 会 如 何 将 一 副 扑 克 牌 按 花 色 排 序 (花色 顺序 是 黑 桃 、 红 桃 、 梅 花 和 方 片 ) ， 

限制 条 件 是 所 有 牌 都 是 背面 朝 上 排 成 一 列 ， 而 你 一 次 只 能 翻 看 两 张 牌 或 者 交换 两 张 牌 ( 保持 背 
面 朝 上 ) 。 

出 列 排 序 。 说 说 你 会 如 何 将 一 副 扑 克 牌 排序 ， 限 制 条 件 是 只 能 查看 最 上 面 的 两 张 牌 ， 交 换 最 上 
面 的 两 张 牌 ， 或 是 将 最 上 面 的 一 张 牌 放 到 这 操 牌 的 最 下 面 。 

昂贵 的 交换 。 一 家 货运 公司 的 一 位 职员 得 到 了 一 项 任务 ， 需 要 将 若干 大 货 箱 按照 发 货 时 间 摆 放 。 

比较 发 货 时间 很 容易 〈( 对 照 标签 即 可 ) ， 但 将 两 个 货 箱 交 换 位 置 则 很 困难 〈 移动 麻烦 ) 。 仓 库 
已 经 快 满 了 ， 只 有 一 个 空闲 的 仓位 。 这 位 职员 应 该 使 用 哪 种 排序 算法 呢 ? 

验证 。 编 写 一 个 check 0) 方法 ， 调 用 sort0) 对 任意 数组 排序 。 如 果 排 序 成 功 而 且 数 组 中 的 所 
有 对 象 均 没有 被 修改 则 返回 true， 否 则 返回 false。 不 要 假设 sort() 只 能 通过 exch() 来 移动 
数据 ， 可 以 信任 并 使 用 Arrays .sort()。 

动画 。 修 改 插 人 排序 和 选择 排序 的 代码 ， 使 之 将 数组 内 容 绘制 成 正文 中 所 示 的 棒状 图 。 在 每 一 
轮 排序 后 重 绘图 片 来 产生 动画 效果 ， 并 以 一 张 “ 有 序 ” 的 图 片 作为 结束 ， 即 所 有 圆 棒 均 已 按照 
高 度 有 序 排列 。 提 示 : 使 用 类 似 于 正文 中 的 用 例 来 随机 生成 Double 值 ， 在 排序 代码 的 适当 位 置 
调用 show() 方法 ， 并 在 showQ 方法 中 清理 画布 并 绘制 棒状 图 。 

可 视 轨 迹 。 修 改 你 为 上 一 题 给 出 的 解答 ， 为 插入 排序 和 选择 排序 生成 和 正文 中 类 似 的 可 视 轨 迹 。 

提示 : 使 用 setYscale() 函数 是 一 个 明智 的 选择 。 附 加 题 : 添加 必要 的 代码 ， 与 正文 中 的 图 片 
一 样 用 红色 和 灰色 强调 不 同 角色 的 元 素 。 

希 尔 排序 的 最 坏 情况 。 用 1 到 100 构造 一 个 含有 100 个 元 素 的 数组 并 用 希 尔 排序 和 递增 序列 1 4 
13 40 对 其 排序 ， 使 比较 的 次 数 尽 可 能 多 。 

希 尔 排 序 的 最 好 情况 。 最 好 情况 是 什么 ? 证 明 你 的 结论 。 

可 比较 的 交易 。 用 我 们 的 Date 类 (请 见 2.1.1.4 节 ) 作 为 模板 扩展 你 的 Transaction 类 (请 
见 练习 1.2.13 ) ， 实 现 Comparable 接口 ， 使 交易 能 够 按照 金额 排序 。 

解答 : 

public class Transaction implements Comparable<Transaction> 

{ 


private final double amount; 


public int compareTo(Transaction that) 

{ 
if (this.amount > that.amount) return +1; 
if (this.amount < that.amount) return -1; 
return 0; 


} 

事务 排序 测试 用 例 。 编 写 一 个 SortTransaction 类 ， 在 静态 方法 main() 中 从 标准 输入 读 取 一 
系列 事务 ， 将 它们 排序 并 在 标准 输出 中 打印 结果 (请 见 练习 1.3.17 ) 。 

解答 : 
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public class SortTransactions 


public static Transaction[] readTransactions() 
{ // 请 见 练习 1.3.17 } 
public static void main(String[] args) 


Transaction[] transactions = readTransactions(); 
Shell.sort(transactions); 
for (Transaction t : transactions) 
StdOut.print1n(t); 
} 
} 


图 实验 是 


2.1.23 


2.1.24 


2.1.25 


2.1.26 


2.1.27 


2.1.28 


2.1.29 


2.1.30 


2.1.31 


2.1.32 


2.1.33 


纸牌 排序 。 请 几 位 朋友 分 别 将 一 副 扑克 牌 排序 ( 见 练习 2.1.13 ) 。 仔 细 观 察 并 记录 他 们 所 使 用 的 
让 尖 5 

插入 排序 的 哨兵 。 在 插入 排序 的 实现 中 先 找 出 最 小 的 元 素 并 将 其 置 于 数组 的 最 左边 ， 这 样 就 能 
去 掉 内 循环 的 判断 条 件 j>0。 使 用 SortCompare 来 评估 这 种 做 法 的 效果 。 注 意 : 这 是 一 种 常见 
的 规避 边界 测试 的 方法 ， 能 够 省 略 判断 条 件 的 元 素 通常 被 称 为 哨兵 。 

不 需要 交换 的 插入 排序 。 在 插入 排序 的 实现 中 使 较 大 元 素 右 移 一 位 只 需要 访问 一 次 数组 〈 而 不 
用 使 用 exch() ) 。 使 用 SortCompare 来 评估 这 种 做 法 的 效果 。 

原始 数据 类 型 。 编 写 一 个 能 够 处 理 int 值 的 插入 排序 的 新 版 本 , 比较 它 和 正文 中 所 给 出 的 实现 (能 
够 隐 式 地 用 自动 装 箱 和 拆 箱 转换 Integer 值 并 排序 ) 的 性 能 。 

希 尔 排序 的 用 时 是 次 平方 级 的 。 在 你 的 计算 机 上 用 SortCompare 比较 希 尔 排 序 和 插入 排序 以 及 
选择 排序 。 测 试 数组 的 大 小 按照 2 的 宕 次 递增 ， 从 128 开始 。 

相等 的 主键 。 对 于 主键 仅 可 能 取 两 种 值 的 数组 ， 评 估 和 验证 插入 排序 和 选择 排序 的 性 能 ， 假 设 
两 种 主键 值 出 现 的 概率 相同 。 

项 尔 排序 的 递增 序列 。 通 过 实验 比较 算法 2.3 中 所 使 用 的 递增 序列 和 递增 序列 1，5，19，41， 
109，209，505$，929，2161，3905，8929，16 001，36 289，64 769，146 305，260 609 ( 这 是 通 
过 序列 9x 449 x2 和 41 和 43 x 2+1 综合 得 到 的 ) 。 可 以 参考 练习 2.1.11。 

几何 级 数 递 增 序 列 。 通 过 实验 找到 一 个 :， 使 得 对 于 大 小 为 N=10" 的 任意 随机 数组 ， 使 用 递增 序 
列 1, Lj, Lj, Lj, Lf],，… 的 希 尔 排序 的 运行 时 间 最 短 。 给 出 你 能 找到 的 三 个 最 佳 + 值 以 及 相 
应 的 递增 序列 。 

以 下 练习 描述 的 是 各 种 用 于 评估 排序 算法 的 测试 用 例 。 它 们 的 作用 是 用 随机 数据 帮助 你 增进 对 
性 能 特性 的 理解 。 随 着 命令 行 指 定 的 实验 次 数 的 增 大 ， 可 以 和 SortCompare 一 样 在 它们 中 使 用 
time() 函数 来 得 到 更 精确 的 结果 。 在 以 后 的 几 节 中 我 们 会 使 用 这 些 练习 来 评估 更 加 复杂 的 算法 。 
双 们 测试。 编写 一 个 能 够 对 排序 算法 进行 双 倍 测试 的 用 例 。 数 组 规模 N 的 起 始 值 为 1000， 排 序 
后 打印 N、 估 计 排 序 用 时 、 实 际 排序 用 时 以 及 在 N 增 倍 之 后 两 次 用 时 的 比例 。 用 这 段 程 序 验证 在 
随机 输入 模型 下 插入 排序 和 选择 排序 的 运行 时 间 都 是 平方 级 别 的 。 对 希 尔 排序 的 性 能 作出 猜想 
并 验证 你 的 猜想 。 

运行 时 间 曲 线 图 。 编 写 一 个 测试 用 例 ， 使 用 StdDraw 在 各 种 不 同 规模 的 随机 输入 下 将 算法 的 平 
均 运 行 时 间 绘 制 成 一 张 曲线 图 。 可 能 需要 添加 一 两 个 命令 行 参 数 ， 请 尽量 设计 一 个 实用 的 工具 。 
分 布 图 。 对 于 你 为 练习 2.1.33 给 出 的 测试 用 例 ， 在 一 个 无 穷 循环 中 调用 sort0 方法 将 由 第 三 个 


2.1.34 


2.1.35 


2.1.36 


2.1.37 


2.1.38 
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命令 行 参数 指定 大 小 的 数组 排序 ， 记 录 每 次 排序 的 用 时 并 使 用 StdDraw 在 图 上 画 出 所 有 平均 运 
行 时 间 ， 应 该 能 够 得 到 一 张 运行 时 间 的 分 布 图 。 

罕见 情况 。 编 写 一 个 测试 用 例 ， 调 用 sort 0) 方法 对 实际 应 用 中 可 能 出 现 困难 或 极端 情况 的 数组 
进行 排序 。 比 如 ， 数 组 可 能 已 经 是 有 序 的 ， 或 是 逆序 的 ， 数 组 的 所 有 主键 相同 ， 数 组 的 主键 只 
有 两 种 值 ， 大 小 为 0 或 是 1 的 数组 。 

不 均匀 的 概率 分 布 。 编 写 一 个 测试 用 例 ， 使 用 非 均匀 分 布 的 概率 来 生成 随机 排列 的 数据 ， 包 括 : 
口 高 斯 分 布 ; 

口 泊 松 分 布 ; 

口 几何 分 布 ; 

口 离散 分 布 〈 一 种 特殊 情况 请 见 练习 2.1.28 ) 。 

评估 并 验证 这 些 输入 数据 对 本 节 讨 论 的 算法 的 性 能 的 影响 。 

不 均匀 的 数据 。 编 写 一 个 测试 用 例 ， 生 成 不 均匀 的 测试 数据 ， 包 括 : 

口 一 半数 据 是 0， 一 半 是 1; 

口 一 半数 据 是 0，1/4 是 1，1/4 是 2， 以 此 类 推 ; 

口 一 半数 据 是 0， 一半 是 随机 int 值 。 

评估 并 验证 这 些 输入 数据 对 本 节 讨论 的 算法 的 性 能 的 影响 。 

部 分 有 序 。 编 写 一 个 测试 用 例 ， 生 成 部 分 有 序 的 数组 ， 包 括 : 

口 95% 有 序 ， 其 余部 分 为 随机 值 ; 

口 所 有 的 元 素 和 它们 的 正确 位 置 的 距离 都 不 超过 10; 

口 5% 的 元 素 随 机 分 布 在 整个 数组 中 ， 剩 下 的 数据 都 是 有 序 的 。 

评估 并 验证 这 些 输入 数据 对 本 节 讨 论 的 算法 的 性 能 的 影响 。 

不 同类 型 的 元 素 。 编 写 一 个 测试 用 例 , 生成 由 多 种 数据 类 型 元 素 组 成 的 数组 , 元 素 的 主键 值 随机 ， 
包括 : 

口 每 个 元 素 的 主键 均 为 String 类 型 ( 至 少 长 10 个 字符 ) ， 并 含有 一 个 double 值 ; 

口 每 个 元 素 的 主键 均 为 double 类 型 ， 并 含有 10 个 String 值 (每 个 都 至 少 长 10 个 字符 ) ; 
口 每 个 元 素 的 主键 均 为 int 类 型 ， 并 含有 一 个 int[20] 值 

评估 并 验证 这 些 输入 数据 对 本 节 讨 论 的 算法 的 性 能 的 影响 。 
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2.2 ”归并 排序 


在 本 节 中 我 们 所 讨论 的 算法 都 基于 归并 这 个 简单 的 操作 ， 即 将 两 个 有 序 的 数组 归并 成 一 个 更 大 
的 有 序数 组 。 很 快 人 们 就 根据 这 个 操作 发 明了 一 种 简单 的 递归 排序 算法 : 归并 排序 。 要 将 一 个 数组 
排序 ， 可 以 先 (递归 地 ) 将 它 分 成 两 半分 别 排序 ， 然 后 将 结果 归并 起 来 。 你 将 会 看 到 ， 归 并 排序 最 
吸引 人 的 性 质 是 它 能 够 保证 将 任意 长 度 为 N 的 数组 排序 所 需 时 间 和 NlogN 成 正比 ; 它 的 主要 缺点 
则 是 它 所 需 的 额外 空间 和 成 正比 。 简 单 的 归并 排序 如 图 2.2.1 所 示 。 


.> 
将 左 半 部 分 排序 E E G M 0 R R S 
将 右 半 部 分 排序 人 :了 
归并 结果 A E E E EG LMMO PRRS TX 


图 2.2.1 归并 排序 示意 图 


2.2.1 原 地 归并 的 抽象 方法 

实现 归并 的 一 种 直截了当 的 办 法 是 将 两 个 不 同 的 有 序数 组 归并 到 第 三 个 数组 中 ， 两 个 数组 中 的 
元 素 应 该 都 实现 了 Comparable 接口 。 实 现 的 方法 很 简单 ， 创 建 一 个 适当 大 小 的 数组 然后 将 两 个 输 
和 人 数组 中 的 元 素 一 个 个 从 小 到 大 放 人 这 个 数组 中 。 

但 是 ， 当 用 归并 将 一 个 大 数组 排序 时 ， 我 们 需要 进行 很 多 次 归并 ， 因 此 在 每 次 归并 时 都 创建 一 
个 新 数组 来 存储 排序 结果 会 带 来 问题 。 我 们 更 希望 有 一 种 能 够 在 原 地 归并 的 方法 ， 这 样 就 可 以 先 将 
前 半 部 分 排序 ， 再 将 后 半 部 分 排序 ， 然 后 在 数组 中 移动 元 素 而 不 需要 使 用 额外 的 空间 。 你 可 以 先 停 
下 来 想 想 应 该 如 何 实现 这 一 点 ， 乍 一 看 很 容易 做 到 ， 但 实际 上 已 有 的 实现 都 非常 复杂 ， 尤 其 是 和 使 
用 额外 空间 的 方法 相 比 。 

尽管 如 此 ， 将 原 地 归并 抽象 化 仍然 是 有 帮助 的 。 与 之 对 应 的 是 我 们 的 方法 签名 merge(a， 1o， 
mid，hi)， 它 会 将 子 数组 a[1o. .mid] 和 a[mid+1. .hi] 归并 成 一 个 有 序 的 数组 并 将 结果 存放 在 
a[1o..hi] 中 。 下 面 的 代码 只 用 几 行 就 实现 了 这 种 归并 。 它 将 涉及 的 所 有 元 素 复 制 到 一 个 辅助 数组 

中 ， 再 把 归并 的 结果 放 回 原 数 组 中 。 实 现 的 另 一 种 方法 请 见 练习 2.2.10。 


原 地 归并 的 抽象 方法 


public static void merge(Comparable[] a, int lo, int mid, int hi) 
{ // 将 a[1o..mid] 和 afmid+1..hi] 归并 
int 1 = 10, j = mid+l; 


for (Cint k = lo; k <= hi; k++) /// 将 a[1o..hi] 复 制 到 aux[1o. .hi] 
aux[k] = a[k]; 


for (int k = 10; k <= hi; k++) // 归并 回 到 a[1o..hi] 


jE (i > mid) a[k] = aux[j++]; 
else if (j > hi ) a[k] = aux[i++]; 
else if (less(aux[j], aux[i])) a[k] = aux[j++]; 
else a[k] = aux[i++]; 


} 


该 方法 先 将 所 有 元 素 复制 到 aux[] 中 , 然后 再 归并 回 a[] 中 。 方法 在 归并 时 (第 二 个 for 循环 ) 
进行 了 4 个 条 件 判断 : 左 半边 用 尽 ( 取 右 半边 的 元 素 ) 、 右 半边 用 尽 ( 取 左 半边 的 元 素 ) 、 右 半边 
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的 当前 元 素 小 于 左 半边 的 当前 元 素 ( 取 右 半边 的 元 素 ) 以 及 右 半边 的 当前 元 素 大 于 等 于 左 半边 的 当 
前 元 素 ( 取 左 半边 的 元 素 ) 。 


a[] aux[] 
Kk 心 . 二 -六 
输入 E E WRIA € E R TI 
复制 2 长 看 - 则 到 | 太 让 下 -天 工 EECGMRIACE RST 
0 5 
0 A 0 6 E A 
1 5 醋 " 守 ”上 赴 E 
2 E 后 党。 杠 E 
3 E "2 E E 
4 E 2 省 G E 
5 G 3 8 G R 
6 M 4 8 M R 
7 R -i R R 
8 R 5 9 R 
9 下 友和 0 T 
归并 结果 由 EGG 用 贡 RT 
原 地 归并 的 抽象 方法 的 轨迹 271 


2.2.2 自 顶 向 下 的 归并 排序 


算法 2.4 基于 原 地 归并 的 抽象 实现 了 另 一 种 递归 归并 ， 这 也 是 应 用 高 效 算法 设计 中 分 治 思想 的 
最 典型 的 一 个 例子 。 这 段 递 归 代 码 是 归纳 证 明 算 法 能 够 正确 地 将 数组 排序 的 基础 : 如 果 它 能 将 两 个 
子 数 组 排序 ， 它 就 能 够 通过 归并 两 个 子 数组 来 将 整个 数组 排序 。 


算法 2.4” 自 顶 向 下 的 归并 排序 


public class Merge 
{ 
private static Comparable[] aux; // 归并 所 需 的 辅助 数组 


public static void sort(Comparable[] a) 


{ 
aux = new Comparable[a.length]; // 一 次 性 分 配 空间 
sort(a, 0, a.length - 1); 


private static void sort(Comparable[] a, int lo, int hi) 
{ // 将 数组 a[1o. .hi] 排 序 
if (hi <= 10) return; 
int mid = lo + (hi - 10)/2; 
sort(a, 10o, mid); // 将 左 半 边 排序 
sort(a, mid+1, hi); // 将 右 半边 排序 
merge(a，10，mid，hi); // 归并 结果 (代码 见 “ 原 地 归并 的 抽象 方法 ”) 
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要 对 子 数 组 a[10. .hi] 进行 排序 ， 先 将 它 分 为 a[10. .mid] 和 a[mid+1. .hi] 两 部 分 ， 分别 通过 
递归 调用 将 它们 单独 排序 ， 最 后 将 有 序 的 子 数组 归并 为 最 终 的 排序 结果 。 





a[] 
1o hi 0 1 2 3 4 56 7 8 9101112 131415 
\ / WE 
merge(a, 0, 0, 1) 世 们 
merge(a, 2, 2, 3) G R 
merge(a, 0, 1, 3) E G M R 
merge(a, 4, 4, 5) E S 
merge(a, 6, 6, 7) 0 R 
merge(a，4， 5, 7) BB 加 
merge(a, 0, 3, 7) E 下 ”让 MM R 及 汪 
merge(a, 8, 8, 9) EE， 由 
merge(a, 10, 10, 11) A Xx 
merge(a, 8, 9, 11) /| es 这 
merge(a, 12, 12, 13) M P 
merge(a, 14, 14, 15) EE “和 . 
merge(a, 12, 13, 15) RE 下 岗 ” 玉 
merge(a, 8, 11, 15) 太 下 > 肛 玉 划 筷 -十 尖 
merge(a, 0, 7, 15) 人 0 -0 3 0 0 0 0 


自 顶 向 下 的 归并 排序 中 归并 结果 的 轨迹 


要 理解 归并 排序 就 要 仔细 研究 该 方法 调 
用 的 动态 情况 ， 如 图 2.2.2 中 的 轨迹 所 示 。 要 
将 a[0..15] 排序 ，sortQ 方法 会 调用 自己 将 
a[0..7] 排序 ， 再 在 其 中 调用 自己 将 a[0. .3] 和 
a[0..1] 排序 。 在 将 a[0] 和 a[1] 分 别 排序 之 后 ， 
终于 才 会 开始 将 a[0] 和 a[1] 归并 ( 简单 起 见 ， 
我 们 在 轨迹 中 把 对 单个 元 素 的 数组 进行 排序 的 调 
用 省 略 了 ) 。 第 二 次 归并 是 a[2] 和 a[3] ， 然 后 
是 a[0..1] 和 a[2..3] ， 以 此 类 推 。 从 这 段 轨迹 
可 以 看 到 ，sortQ 方法 的 作用 其 实在 于 安排 多 次 
merge() 方法 调用 的 正确 顺序 。 后 面 几 节 还 会 用 
到 这 个 发 现 。 

这 段 代码 也 是 我 们 分 析 归 并 排序 的 运行 时 间 
的 基础 。 因 为 归并 排序 是 算法 设计 中 分 治 思想 的 
典型 应 用 ， 我 们 会 详细 对 它 进行 分 析 。 

我 们 也 可 以 通过 图 2.2.3 所 示 的 树 状 图 来 理 
解 命题 Ff。 每 个 结 点 都 表示 一 个 sort 0 方法 通 
过 merge(0) 方法 归并 而 成 的 子 数组 。 这 棵 树 正 
好 有 nn 层 。 对 于 0 到 nn-1 之 间 的 任意 k， 自 顶 向 
下 的 第 kk 层 有 2 个子 数组 ， 每 个 数组 的 长 度 为 
2 汪 ， 归 并 最 多 需要 2” 次 比较 。 因 此 每 层 的 比 
较 次 数 为 2 x 2" =2"，n 层 总 共 为 n2"=NlgN。 


sort(a, 0, 15) 
sort(a, 0, 7) 
sort(a, 0 3) 
sort(as 0 1) 
merge(a, 0, 0, 1) 
SOFt(as ' 2; 
merge(a, 2, 2, 3) 
merge(a, 0, 1, 3) 
sort(a, 4, 7) 
sort(a, 4, 5) 
merge(a, 4, 4, 5) 
sortta, 6 7) 
merge(a, 6, 6, 7) 
merge(a, 4, 5, 7) 
merge(a, 0, 3, 7) 
sort(a, 8, 15) 
sort(a, 8, 11) 
sort(a, 8, 9) 
merge(a, 8, 8, 9) 
sorttas 0 LT1) 
merge(a, 10, 10, 11) 
merge(a, 8, 9, 11) 
sortCas 2 15) 
sort(a, 123 413) 
merge(a, 12, 12,13) 
sort(a, 14, 15) 
merge(a, 14, 14,15) 
merge(a, 12, 13, 15) 
merge(a, 8, 11, 15) 
归并 结果 merge(a，0，7，15) 


将 左 半 
部 分 排序 


将 右 半 
部 分 排序 


图 2.2.2 自 顶 向 下 的 归并 排序 的 调用 轨迹 
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命题 F。 对 于 长 度 为 N 的 任意 数组 ， 自 顶 向 下 的 归并 犊 序 需要 WNlgN 至 NlgN 次 比较 。 
证 明 。 令 C(N) 表示 将 一 个 长 度 为 N 的 数组 排序 时 所 需要 的 比较 次 数 。 我 们 有 C(0)=C(1)=0， 对 
于 NP>0， 通 过 说 归 的 sort() 方法 我 们 可 以 由 相应 的 归纳 关系 得 到 比较 次 数 的 上 限 : 
CU < CLN2D)+CIN2D+N 
右边 的 第 一 项 是 将 数组 的 左 半 部 分 排序 所 用 的 比较 次 数 ， 第 二 项 是 将 数组 的 右 半 部 分 排序 所 用 
的 比较 次 数 ， 第 三 项 是 归并 所 用 的 比较 次 数 。 因 为 归并 所 需 的 比较 次 数 最 少 为 LN/2]， 比 较 次 
数 的 下 限 是 : 
CN) = CN/2D) + C( NI2)D) +LN/2| 
当 N 为 2 的 者 ( 即 N=2) 且 等 号 成 立时 我 们 能 够 得 到 一 个 解 。 首 先 ， 因 为 [LN/2 HN/2 上 2”， 
可 以 得 到 : 
人 (2 =2CCO 2 

将 两 边 同 时 除 以 2" 可 得 : 

CC 二 CO + 
用 这 个 公式 替换 右边 的 第 一 项 ， 可 得 : 

C2")/2" = C(2))/25 二 1+1 
将 上 一 步 重 复 n-l1 所 可 得 : 

C(2")/2" = C(2°)/2°+n 

将 两 边 同时 乘 以 2" 就 可 以 解 得 : 

C(N)=C(2")=n2"=NlgN 
对 于 一 般 的 N， 得 到 的 准确 值 要 更 复杂 一 些 。 但 对 比较 次 数 的 上 下 界 不 等 式 使 用 相同 的 方法 不 
难 证 明 前 面 所 述 的 对 于 任意 N 的 结论 。 这 个 结论 对 于 任意 输入 值 和 顺序 都 成 立 。 





图 2.2.3 N=16 时 归并 排序 中 子 数 组 的 依赖 树 /4 


命题 G。 对 于 长 度 为 W 的 任意 数组 ， 自 顶 向 下 的 归并 排序 最 多 需要 访问 数组 6NlgN 次 。 


证 明 。 每 次 归并 最 多 需要 访问 数组 6N 次 (2N 次 用 来 复制 , 2N 次 用 来 将 排 好 序 的 元 素 移动 回去 ， 
另外 最 多 比较 2N 次 ) ， 根 据 命题 F 即 可 得 到 这 个 命题 的 结果 。 
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命题 F 和 命题 G 告诉 我 们 归并 排序 所 需 的 时 间 和 NlgN 成 正比 。 这 和 2.1 节 所 述 的 初级 排序 方法 
不 可 同日 而 语 ， 它 表明 我 们 只 需要 比 遍历 整个 数组 多 个 对 数 因子 的 时 间 就 能 将 一 个 庞大 的 数组 排序 。 
可 以 用 归并 排序 处 理 数 百 万 甚至 更 大 规模 的 数组 ， 这 是 插入 排序 或 者 选择 排序 做 不 到 的 。 归 并 排序 的 
主要 缺点 是 辅助 数组 所 使 用 的 额外 空间 入 的 大 小 成 正比 。 男 一 方面 ， 通 过 一 些 细致 的 思考 我 们 还 
能 够 大 幅度 缩短 归并 排序 的 运行 时 间 。 
2.2.2.1 ”对 小 规模 子 数组 使 用 插入 排序 

用 不 同 的 方法 处 理 小 规模 问题 能 改进 大 多 数 递归 算法 的 性 能 ， 因 为 递归 会 使 小 规模 问题 中 方法 
的 调用 过 于 频繁 ， 所 以 改进 对 它们 的 处 理 方法 就 能 改进 整个 算法 。 对 排序 来 说 ， 我 们 已 经 知道 插入 
排序 (或 者 选择 排序 ) 非常 简单 ， 因 此 很 可 能 在 小 数组 上 比 归并 排序 更 快 。 和 之 前 一 样 ， 一 幅 可 视 
轨迹 图 能 够 很 好 地 说 明 归 并 排序 的 行为 方式 。 图 2.2.4 中 的 可 视 轨迹 图 显示 的 是 改良 后 的 归并 排序 
的 所 有 操作 。 使 用 插入 排序 处 理 小 规模 的 子 数组 ( 比如 长 度 小 于 15 ) 一 般 可 以 将 归并 排序 的 运行 时 
间 缩 短 10% 一 15% ( 请 见 练习 2.2.23 ) 。 


第 个 数组 ll 
第 二 个 子 数组 ,alll 
第 一 次 归并 ng 
al 
ull 
TT 


前 于 部 分 排序 完成 eolNNNNIIIIIIII 
al 
lll 
a ||| 
al 
| 
好 al 
后 半 部 分 排序 完成 ant anal 
i aaammmmmnNNNIUININNNINIIIIIIIINIIIIIIIIIIIlllllll 


图 2.2.4 改进 了 小 规模 子 数 组 排序 方法 后 的 自 顶 向 下 的 归并 排序 的 可 视 轨迹 
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2.2.2.2 ”测试 数组 是 否 已 经 有 序 
我 们 可 以 添加 一 个 判断 条 件 ， 如 果 a[mid] 小 于 等 于 a[mid+1] ， 我 们 就 认为 数组 已 经 是 有 序 
的 并 跳 过 mergeQ 〇 方法 。 这 个 改动 不 影响 排序 的 递归 调用 ， 但 是 任意 有 序 的 子 数 组 算法 的 运行 时 间 
就 变 为 线性 的 了 ( 请 见 练习 2.2.8 ) 。 
2.2.2.3 不 将 元 素 复 制 到 辅助 数组 
我 们 可 以 节省 将 数组 元 素 复制 到 用 于 归并 的 辅助 数组 所 用 的 时 间 (但 空间 不 行 ) 。 要 做 到 这 一 
点 我 们 要 调用 两 种 排序 方法 ， 一 种 将 数据 从 输入 数组 排序 到 辅助 数组 ， 一 种 将 数据 从 辅助 数组 排序 
到 输入 数组 。 这 种 方法 需要 一 些 技 巧 ， 我 们 要 在 递归 调用 的 每 个 层次 交换 输入 数组 和 辅助 数组 的 角 ”|275 
色 (请 见 练习 2.2.11 ) 。 276 
这 里 我 们 要 重新 强调 第 1 章 中 提出 的 一 个 很 容易 遗忘 的 要 点 。 在 每 一 节 中 ， 我 们 会 将 书 中 的 每 
个 算法 都 看 做 某 种 应 用 的 关键 。 但 在 整体 上 ， 我 们 希望 学 习 的 是 为 每 种 应 用 找到 最 合适 的 算法 。 我 
们 并 不 是 在 推荐 读者 一 定 要 实现 所 提 到 的 这 些 改进 方法 ， 而 是 提醒 大 家 不 要 对 算法 初始 实现 的 性 能 
盖 棺 定论 。 研 究 一 个 新 间 题 时 ， 最 好 的 方法 是 先 实现 一 个 你 能 想到 的 最 简单 的 程序 ， 当 它 成 为 瓶颈 
的 时 候 再 继续 改进 它 。 实 现 那 些 只 能 把 运行 时 间 缩 短 某 个 常数 因子 的 改进 措施 可 能 并 不 值得 。 你 需 
要 用 实验 来 检验 一 项 改进 ， 正 如 本 书 中 所 有 练习 所 演示 的 那样 。 
对 于 归并 排序 ， 刚 才 列 出 的 三 个 建议 都 很 容易 实现 且 在 应 用 归并 排序 时 是 十 分 有 吸引 力 的 一 一 比 
如 本 章 最 后 讨论 的 情况 。 


2.2.3” 自 底 向 上 的 归并 排序 

递归 实现 的 归并 排序 是 算法 设计 中 分 治 思想 的 典型 应 用 。 我 们 将 一 个 大 问题 分 割 成 小 问题 分 
别 解决 ， 然 后 用 所 有 小 问题 的 答案 来 解决 整个 大 问题 。 尽 管 我 们 考虑 的 问题 是 归并 两 个 大 数组 ， 
实际 上 我 们 归并 的 数组 大 多 数 都 非常 小 。 实 现 归 并 Se 
排序 的 另 一 种 方法 是 先 归并 那些 微型 数组 ， 然 后 再 和 
成 对 归并 得 到 的 子 数 组 ， 如 此 这 般 ， 直 到 我 们 将 整 
个 数组 归并 在 一 起 。 这 种 实现 方法 比 标准 递归 方法 4 
所 需要 的 代码 量 更 少 。 首 先 我 们 进行 的 是 两 两 归并 


大寺 一 不 桂 A NS 4 
.引咎 天 要 和 成一 个 大 小 为 1 的 组 》， 然后 “al sis 
个 元 素 的 数组 ) ， 然 后 9 归并 ， 一 直下 去 。 
Sm hee ee a al ant anll 


在 每 一 轮 归并 中 ， 最 后 一 次 归并 的 第 二 个 子 数组 可 

能 比 第 一 个 子 数组 要 小 (但 这 对 merge0 方法 不 是 16 和 

问题 ) ， 如 果 不 是 的 话 所 有 的 归并 中 两 个 数组 大 小 | aa 
都 应 该 一 样 ， 而 在 下 一 轮 中 子 数 组 的 大 小 会 翻 倍 。 


此 过 程 的 可 视 轨迹 如 图 2.2.5 所 示 。 eee 
自 底 向 上 的 归并 排序 算法 的 实现 如 下 。 图 2.2.5” 自 底 向 上 的 归并 排序 的 可 视 轨 迹 277 
自 底 向 上 的 归并 排序 


public class MergeBU 
private static Comparable[] aux; // 归并 所 需 的 辅助 数组 
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// merge() 方 法 的 代码 请 见 “ 原 地 归并 的 抽象 方法 ” 
public static void sort(Comparable[] a) 
{ // 进行 19N 次 两 两 归并 
int N = a.length; 
aux = new Comparable[N]; 
for (int sz = 1; sz < N; sz = Sz+SZz) // sz 子 数组 大 小 
for (int lo = 0; lo < N-sz; 1o += SZ+S5SZ) // 1o: 子 数组 索引 
merge(a, 10, lo+sz-1, Math.min(lo+sz+sz-1, N-1)); 
} 
4 


自 底 向 上 的 归并 排序 会 多 次 遍历 整个 数组 ， 根 据 子 数组 大 小 进行 两 两 归并 。 子 数组 的 大 小 sz 的 初始 值 
为 1, 每 次 加 倍 。 最 后 一 个 子 数组 的 大 小 只 有 在 数组 大 小 是 sz 的 偶数 倍 的 时 候 才 会 等 于 sz( 否则 它 会 比 sz 小 )。 


a[i] 

0 L222.3 4 6 7 3 9101 12 1314 15 
sz=1 针眼 玉民 最 兴工 
merge(a, 0 vd E” 江 
merge(a, 2 > G R 
merge(a, 4, 4, 5) 攻 :“ 营 
merge(a, 6, 6, 7) 0 R 
merge(a, 8 8, 9) EE 
merge(a, 10, 10, 11) A Xx 
merge(a, 12, 12, 13) M P 
merge(a, 14, 14, 15) 3 中: 

和 
merge(a, 0, 1, 3) EE , 息 - -好 ， 屋 
merge(a, 4, 5， 7) ET , 泡 避 -总 
merge(a， 8， 9，11) A 下 芽 六 
merge(a, 12, 13, 15) 民生 沂 于 
sz=4 
merge(a, 0, 3, 7) EL 虹 地 ' 机 wp5 全 以 
merge(a, 8, 11, 15) Re 
sz=8 
merge(a, 0, 7, 15) 0 > 0 0 0 | 1 0 0 


自 底 向 上 的 归并 排序 的 归并 结果 








命题 H。 对 于 长 度 为 入 的 任意 数组 ， 自 底 向 上 的 归并 排序 需要 1/2NlgN 至 NlgN 次 比较 ， 最 多 
访问 数组 6NlgN 次 。 


证 明 。 处 理 一 个 数组 的 遍 数 正好 是 LlgNj| ( 即 2" < N<2” 中 的 n) 。 每 一 遍 会 访问 数组 6N 次 ， 
比较 次 数 在 N/2 和 和 N 之 间 。 


当 数 组 长 度 为 2 的 寡 时 ， 自 项 向 下 和 自 底 向 上 的 归并 排序 所 用 的 比较 次 数 和 数组 访问 次 数 正好 
相同 ， 只 是 顺序 不 同 。 其 他 时 候 ， 两 种 方法 的 比较 和 数组 访问 的 次 序 会 有 所 不 同 (请 见 练习 2.2.5 ) 。 

自 底 向 上 的 归并 排序 比较 适合 用 链表 组 织 的 数据 。 想 象 一 下 将 链表 先 按 大 小 为 1 的 子 链表 进行 
排序 ， 然 后 是 大 小 为 2 的 子 链表 ， 然 后 是 大 小 为 4 的 子 链表 等 。 这 种 方法 只 需要 重新 组 织 链表 链接 
就 能 将 链表 原 地 排序 ( 不 需要 创建 任何 新 的 链表 结 点 ) 。 

用 上 自 项 向 下 或 是 自 底 向 上 的 方式 实现 任何 分 治 类 的 算法 都 很 自然 。 归 并 排序 告诉 我 们 ， 当 能 够 
用 其 中 一 种 方法 解决 一 个 问题 时 ， 你 都 应 该 试 试 男 一 种 。 你 是 希望 像 Merge .sort() 中 那样 化 整 为 
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零 (然后 递归 地 解决 它们 ) 的 方式 解决 问题 ， 还 是 希望 像 MergeBU. sort GO) 中 那样 循序 渐进 地 解决 
问题 呢 ? 


2.2.4 排序 算法 的 复杂 度 

学 习 归并 排序 的 一 个 重要 原因 是 它 是 证 明 计 算 复杂 性 领域 的 一 个 重要 结论 的 基础 ， 而 计算 复杂 
性 能 够 帮助 我 们 理解 排序 自身 固有 的 难 易 程度 。 计 算 复杂 性 在 算法 设计 中 扮演 着 非常 重要 的 角色 ， 
而 这 个 结论 正 是 和 排序 算法 的 设计 直接 相关 的 ， 因 此 接 下 来 我 们 就 要 详细 地 讨论 它 。 

研究 复杂 度 的 第 一 步 是 建立 一 个 计算 模型 。 一 般 来 说 ， 研 究 者 会 尽量 寻找 一 个 和 问题 相关 的 最 
简单 的 模型 。 对 排序 来 说 ， 我 们 的 研究 对 象 是 基于 比较 的 算法 ， 它 们 对 数组 元 素 的 操作 方式 是 由 主 
键 的 比较 决定 的 。 一 个 基于 比较 的 算法 在 两 次 比较 之 间 可 能 会 进行 任意 规模 的 计算 ， 但 它 只 能 通过 
主键 之 间 的 比较 得 到 关于 某 个 主键 的 信息 。 因 为 我 们 局 限于 实现 了 Comparable 接口 的 对 象 ， 本 章 
中 的 所 有 算法 都 属于 这 一 类 ( 注意 ， 我 们 忽略 了 访问 数组 的 开销 ) 。 在 第 5 章 中 ， 我 们 会 讨论 不 局 
限于 Comparable 元 素 的 算法 。 


iD 
~ 
DD 


命题 |。 没有 任何 基于 比较 的 算法 能 够 保证 使 用 少 于 lg (NI ) ~ NlgN 次 比较 将 长 度 为 N 的 数组 
排序 。 


证 明 。 首 先 ， 假 设 没 有 重复 的 主键 ， 因 为 任何 排序 算法 都 必须 能 够 处 理 这 种 情况 。 我 们 使 用 二 
又 树 来 表示 所 有 的 比较 。 树 中 的 结 点 要 么 是 一 片 叶子 Goi ii)， 表 示 排 序 完成 且 原 输入 的 
排列 顺序 是 a[io], a[ii],…, a[ini]， 要 么 是 一 个 内 部 结 点 人为， 表示 a[i] 和 a[j] 之 间 的 一 次 
比较 操作 ， 它 的 左 子 树 表示 a[i] 小 于 a[j] 时 进行 的 其 他 比较 ， 右 子 树 表示 a[i] 大 于 a[j] 
时 进行 的 其 他 比较 。 从 根 结 点 到 叶子 结 点 每 一 条 路 径 都 对 应 着 算法 在 建立 叶子 结 点 所 示 的 顺序 
时 进行 的 所 有 比较 。 例 如 ， 这 是 一 棵 N=3 时 的 比较 树 : 








我 们 从 来 没有 明确 地 构造 这 棵 树 一 一 它 只 是 用 来 描述 算法 中 的 比较 的 一 个 数学 工具 。 

从 比较 树 观察 得 到 的 第 一 个 重要 结论 是 这 棵 树 应 该 至 少 有 NI 个 叶子 结 点 ， 因 为 W 个 不 同 的 主 
键 会 有 NI 种 不 同 的 排列 。 如 果 叶 子 结 点 少 于 NI!， 那 肯定 有 一 些 排 列 顺序 被 遗漏 了 。 算 法 对 于 
那些 被 遗漏 的 输入 肯定 会 失败 。 

从 根 结 点 到 叶子 结 点 的 一 条 路 径 上 的 内 部 结 点 的 数量 即 是 某 种 输入 下 算法 进行 比较 的 次 数 。 我 们 
感 兴趣 的 是 这 种 路 径 能 有 多 长 ( 也 就 是 树 的 高 度 ) ， 因 为 这 也 就 是 算法 比较 次 数 的 最 坏 情况 。 二 
又 树 的 一 个 基本 的 组 合 学 性 质 就 是 高 度 为 h 的 树 最 多 只 可 能 有 2 个 叶子 结 点 ， 拥 有 2 个 结 点 的 
树 是 完美 平衡 的 ， 或 称 为 完全 树 。 下 图 所 示 的 就 是 一 个 h=4 的 例子 。 


MD 
oo 
© 
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高 度 为 4 的 完全 树 
(灰色 部 分 所 示 ) ， 
共有 2 =16 个 叶子 结 点 







任何 其 他 高 度 为 4 
的 树 《黑色 部 分 所 
7 示 ) ， 叶 子 结 点 少 于 16 个 


结合 前 两 段 的 分 析 可 知 ， 任 意 基于 比较 的 排序 算法 都 对 应 着 一 标高 丸 的 比较 树 ( 如 下 图 所 示 ) ， 
其 中 : 1 
NI 过 叶子 结 点 的 数量 入 2 





至 少 NI 个 叶子 结 点 不 超过 2 ' 个 叶子 结 点 


的 值 就 是 最 坏 情况 下 的 比较 次 数 ， 因 此 对 不 等 式 的 两 边 取 对 数 即 可 得 到 任意 算法 的 比较 次 数 
至 少 是 lgN1。 根 据 斯 特 灵 公式 对 阶乘 函数 的 近似 ( 见 表 1.4.6 ) 可 得 lgN!I~NlgN。 


这 个 结论 告诉 了 我 们 在 设计 排序 算法 的 时 候 能 够 达到 的 最 佳 效 果 。 例 如 ， 如 果 没 有 这 个 结论 ， 
我 们 可 能 会 去 尝试 设计 一 个 在 最 坏 情况 下 比较 次 数 只 有 归并 排序 的 一 半 的 基于 比较 的 算法 。 命 题 I 
中 的 下 限 告诉 我 们 这 种 努力 是 没有 意义 的 一 一 这 样 的 算法 不 存在 。 这 是 一 个 重要 结论 ， 适 用 于 任何 
我 们 能 够 想到 的 基于 比较 的 算法 。 

命题 H 表明 归并 排序 在 最 坏 情况 下 的 比较 次 数 为 ~NlgN。 这 是 其 他 排序 算法 复杂 度 的 上 限 ， 也 
就 是 说 更 好 的 算法 需要 保证 使 用 的 比较 次 数 更 少 。 命题 1 说 明 没有 任何 排序 算法 能 够 用 少 于 ~NlgN 
次 比较 将 数组 排序 ， 这 是 其 他 排序 算法 复杂 度 的 下 限 。 也 就 是 说 ， 即 使 是 最 好 的 算法 在 最 坏 的 情况 
下 也 至 少 需 要 这 么 多 次 比较 。 将 两 者 结合 起 来 也 就 意味 着 : 


命题 J。 归并 排序 是 一 种 渐进 最 优 的 基于 比较 排序 的 算法 。 


证 阴 。 更 准确 地 说 ， 这 外 话 的 意思 是 ， 归 并 排序 在 最 坏 情况 下 的 比较 次 数 和 任意 基于 比较 的 排 
序 算法 所 需 的 最 少 比较 次 数 都 是 ~NlgN。 命 题 H 和 命题 TI 证 明了 这 些 结论 。 


需要 强调 的 是 ， 和 计算 模型 一 样 ， 我 们 需要 精确 地 定义 最 优 算法 。 例 如 ， 我 们 可 以 严格 地 认为 
仅仅 只 需要 lgN! 次 比较 的 算法 才 是 最 优 的 排序 算法 。 我 们 不 这 么 做 的 原因 是 ， 即 使 对 于 很 大 的 N， 
这 种 算法 和 ( 比如 说 ) 归并 排序 之 间 的 差异 也 并 不 明显 。 或 者 我 们 也 可 以 放宽 最 优 的 定义 ,使 之 包 
含 任意 在 最 坏 情况 下 的 比较 次 数 都 在 NlgN 的 某 个 常数 因子 范围 之 内 的 排序 算法 。 我 们 不 这 么 做 的 
原因 是 对 于 很 大 的 N， 这 种 算法 和 归并 排序 之 间 的 差距 还 是 很 明显 的 。 

计算 复杂 度 的 概念 可 能 会 让 人 觉得 很 抽象 ， 但 解决 可 计算 问题 内 在 困难 的 基础 性 研究 则 不 管 怎 
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么 说 都 是 非常 必要 的 。 而 且 ， 在 适用 的 情况 下 ,关键 在 于 计算 复杂 度 会 影响 优秀 软件 的 开发 。 首 先 ， 
准确 的 上 界 为 软件 工程 师 保证 性 能 提供 了 空间 。 很 多 例子 表明 , 平方 级 别 排序 的 性 能 低 于 线性 排序 。 
其 次 ， 准 确 的 下 界 可 以 为 我 们 节省 很 多 时 间 ， 避 免 因 不 可 能 的 性 能 改进 而 投入 资源 。 


但 归并 排序 的 最 优 性 并 不 是 结束 ， 也 不 代表 在 实际 应 用 中 我 们 不 会 考虑 其 他 的 方法 了 ， 因 为 本 


节 中 的 理论 还 是 有 许多 局 限 性 的 ， 例 如 : 


口 归并 排序 的 空间 复杂 度 不 是 最 优 的 ; 

口 在 实践 中 不 一 定 会 遇 到 最 坏 情况 ; 

口 除了 比较 ,算法 的 其 他 操作 ( 例如 访问 数组 ) 也 可 能 很 重要 ; 
口 不 进行 比较 也 能 将 某 些 数据 排序 。 

因此 在 本 书 中 我 们 还 将 继续 学 习 其 他 一 些 排序 算法 。 


图 答疑 


迟 可 


问 


芒 可 


归并 排序 比 希 尔 排序 快 吗 ? 
在 实际 应 用 中 ， 它 们 的 运行 时 间 之 间 的 差距 在 常数 级 别 之 内 ( 和 希 尔 排序 使 用 的 是 像 算法 2.3 中 那样 
的 经 过 验证 的 递增 序列 ) ， 因 此 相对 性 能 取决 于 具体 的 实现 。 


% java SortCompare Merge She11 100000 
For 100000 random Double values 
Merge is 1.2 times faster than Shel11 


理论 上 来 说 ， 还 没有 人 能 够 证 明 希 尔 排序 对 于 随机 数据 的 运行 时 间 是 线性 对 数 级 别 的 ， 因 此 存在 平 
均 情 况 下 和 希 尔 排序 的 性 能 的 渐进 增长 率 " 更 高 的 可 能 性 。 在 最 坏 情 况 下 ， 这 种 差距 的 存在 已 经 被 证 实 
了 ， 但 这 对 实际 应 用 没有 影响 。 

为 什么 不 把 数组 aux[] 声明 为 merge() 方法 的 局 部 变量 ? 

这 是 为 了 避免 每 次 归并 时 ， 即 使 是 归并 很 小 的 数组 ， 都 创建 一 个 新 的 数组 。 如 果 这 么 做 ,那么 创建 
新 数组 将 成 为 归并 排序 运行 时 间 的 主要 部 分 ( 请 见 练习 2.2.26 ) 。 更 好 的 解决 方案 是 将 aux[] 变 为 
sort( 方法 的 局 部 变量 , 并 将 它 作为 参数 传递 给 merge 0) 方法 (为 了 简化 代码 我 们 没有 在 例子 中 这 
么 做 ， 请 见 练 习 2.2.9 ) 。 

当 数 组 中 存在 重复 的 元 素 时 归并 排序 的 表现 如 何 ? 

如 果 所 有 的 元 素 都 相同 ， 那 么 归并 排序 的 运行 时 间 将 是 线性 的 〈 需要 一 个 额外 的 测试 来 避免 归并 已 
经 有 序 的 数组 ) 。 但 如 果 有 多 个 不 同 的 重复 值 ， 这 样 做 的 性 能 收益 就 不 是 很 明显 了 。 例 如 ， 假 设 输 
入 数组 的 W 个 奇数 位 上 的 元 素 都 是 同一 个 值 ， 另 外 个 偶数 位 上 的 元 素 都 是 另 一 个 值 ， 此 时 算法 的 
运行 时 间 是 线性 对 数 的 〈 这 样 的 数组 和 所 有 元 素 都 不 重复 的 数组 满足 了 相同 的 循环 条 件 ) ， 而 非 线 
性 的 。 


图 练 与 \ \ 
2.2.1 按照 本 节 开 头 所 示 轨 迹 的 格式 给 出 原 地 归并 的 抽象 merge() 方法 是 如 何 将 数组 A E Q SUYE 


INOST 排 序 的 。 


中 即 运行 时 间 的 近似 函数 。 一 一 译 者 注 
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2.2.2 ”按照 算法 2.4 所 示 轨 迹 的 格式 给 出 自 顶 向 下 的 归并 排序 是 如 何 将 数组 E ASYQUESTIO0 
N 排序 的 。 

2.2.3 用 自 底 向 上 的 归并 排序 解答 练习 2.2.2。 

2.2.4 ”是 否 当 且 仅 当 两 个 输入 的 子 数组 都 有 序 时 原 地 归并 的 抽象 方法 才能 得 到 正确 的 结果 ? 证 明 你 的 结 
论 , 或 者 给 出 一 个 反例 。 

2.2.5” 当 输入 数组 的 大 小 N=39 时 , 给 出 自 顶 向 下 和 自 底 向 上 的 归并 排序 中 各 次 归并 子 数组 的 大 小 及 顺序 。 

2.2.6 ”编写 一 个 程序 来 计算 自 项 向 下 和 自 底 向 上 的 归并 排序 访问 数组 的 准确 次 数 。 使 用 这 个 程序 将 N=1 
至 512 的 结果 绘 成 曲线 图 ， 并 将 其 和 上 限 6NlgN 比较 。 

2.2.7 证 明 归并 排序 的 比较 次 数 是 单调 递增 的 ( 即 对 于 N>0，C(N+1)>C(N) ) 。 

2.2.8 假设 将 算法 2.4 修改 为 : 只 要 a[mid] <= a[mid+1] 就 不 调用 merge() 方法 ,请 证 明 用 归并 排序 
处 理 一 个 已 经 有 序 的 数组 所 需 的 比较 次 数 是 线性 级 别 的 。 

2.2.9 在 库 函 数 中 使 用 aux[] 这 样 的 静态 数组 是 不 妥当 的 ， 因 为 可 能 会 有 多 个 程序 同时 使 用 这 个 类 。 实 
现 一 个 不 用 静态 数组 的 Merge 类 ， 但 也 不 要 将 aux[] 变 为 merge0) 的 局 部 变量 ( 请 见 本 节 的 答 
疑 部 分 ) 。 提 示 : 可 以 将 辅助 数组 作为 参数 传递 给 递归 的 sort (0) 方法 。 


图 提高 是 


2.2.10 ”快速 归并 。 实 现 一 个 merge( 方法 ， 按 降序 将 a[] 的 后 半 部 分 复制 到 aux[] ， 然 后 将 其 归并 回 
a[] 中 。 这 样 就 可 以 去 掉 内 循环 中 检测 某 半 边 是 否 用 尽 的 代码 。 注 意 : 这 样 的 排序 产生 的 结果 是 
不 稳定 的 (请 见 2.5.1.8 节 ) 。 

2.2.11 改进 。 实 现 2.2.2 节 所 述 的 对 归并 排序 的 三 项 改进 : 加 快 小 数组 的 排序 速度 ， 检 测 数 组 是 否 已 经 
有 序 以 及 通过 在 递归 中 交换 参数 来 避免 数组 复制 。 

2.2.12 次 线性 的 额外 空间 。 用 大 小 M 将 数组 分 为 N/M 块 ( 简单 起 见 ， 设 M 是 N 的 约 数 ) 。 实 现 一 个 
归并 方法 ， 使 之 所 需 的 额外 空间 减少 到 max(M, NM: (iD 可 以 先 将 一 个 块 看 做 一 个 元 素 ， 将 块 
的 第 一 个 元 素 作 为 块 的 主键 ， 用 选择 排序 将 块 排序 ，(ii) 遍历 数组 ， 将 第 一 块 和 第 二 块 归 并 ， 完 
成 后 将 第 二 块 和 第 三 块 归并 ， 等 等 。 

2.2.13 平均 情况 的 下 限 。 请 证 明 任 意 基于 比较 的 排序 算法 的 预期 比较 次 数 至 少 为 ~NlgN ( 假设 输入 元 
素 的 所 有 排列 的 出 现 概 率 是 均等 的 ) 。 提 示 : 比较 次 数 至 少 是 比较 树 的 外 部 路 径 的 长 度 ( 根 结 
点 到 所 有 叶子 结 点 的 路 径 长 度 之 和 ) ， 当 树 平衡 时 该 值 最 小 。 

2.2.14 ”归并 有 序 的 队列 。 编写 一 个 静态 方法 , 将 两 个 有 序 的 队列 作为 参数 , 返回 一 个 归并 后 的 有 序 队列 。 

2.2.15 ” 自 底 向 上 的 有 序 队列 归 并 排序 。 用 下 面 的 方法 编写 一 个 自 底 向 上 的 归并 排序 给 定 入 个 元 素 ， 
创建 入 个 队列 ， 每 个 队列 包含 其 中 一 个 元 素 。 创 建 一 个 由 这 NN 个 队列 组 成 的 队列 ， 然 后 不 断 用 
练习 2.2.14 中 的 方法 将 队列 的 头 两 个 元 素 归 并 ， 并 将 结果 重新 加 入 到 队列 结尾 ， 直 到 队列 的 队 
列 只 剩 下 一 个 元 素 为 止 。 

2.2.16 自然 的 归并 排序 。 编 写 一 个 自 底 向 上 的 归并 排序 ， 当 需要 将 两 个 子 数 组 排序 时 能 够 利用 数组 中 
已 经 有 序 的 部 分 。 首 先 找 到 一 个 有 序 的 子 数组 ( 移动 指针 直到 当前 元 素 比 上 一 个 元 素 小 为 止 ) ， 
然后 再 找 出 另 一 个 并 将 它们 归并 。 根 据 数 组 大 小 和 数组 中 递增 子 数组 的 最 大 长 度 分 析 算法 的 运 
行 时 间 。 

2.2.17 链表 排序 。 实 现 对 链表 的 自然 排序 ( 这 是 将 链表 排序 的 最 佳 方法 ， 因 为 它 不 需要 额外 的 空间 ， 
且 运 行 时 间 是 线性 对 数 级 别 的 ) 。 
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2.2.18 ” 打 乱 链表 。 实 现 一 个 分 治 算法 ,使 用 线性 对 数 级 别 的 时 间 和 对 数 级 别 的 额外 空间 随机 打 乱 一 条 
链表 。 

2.2.19 ”倒置 ,编写 一 个 线性 对 数 级 别 的 算法 统计 给 定数 组 中 的 “倒置 "数量 ( 即 插 入 排序 所 需 的 交换 次 数 ， 
请 见 2.1 节 ) 。 这 个 数量 和 Kendall tau 距离 有 关 ， 请 见 2.5 节 。 

2.2.20 间接 排序 。 编 写 一 个 不 改变 数组 的 归并 排序 ， 它 返回 一 个 int[] 数组 perm， 其 中 perm[i] 的 
值 是 原 数 组 中 第 i 小 的 元 素 的 位 置 。 

2.2.21 一 式 三 份 。 给 定 三 个 列表 ， 每 个 列表 中 包含 W 个 名 字 ， 编 写 一 个 线性 对 数 级 别 的 算法 来 判定 三 
份 列表 中 是 否 含 有 公共 的 名 字 ， 如 果 有 ， 返 回 第 一 个 被 找到 的 这 种 名 字 。 

2.2.22 三 向 归并 排序 。 假 设 每 次 我 们 是 把 数组 分 成 三 个 部 分 而 不 是 两 个 部 分 并 将 它们 分 别 排序 ， 然 后 
进行 三 向 归并 。 这 种 算法 的 运行 时 间 的 增长 数量 级 是 多 少 ? 286 


图 实验 是 


2.2.23 改进 。 用 实验 评估 正文 中 所 提 到 的 归并 排序 的 三 项 改进 (请 见 练习 2.2.11 ) 的 效果 ， 并 比较 正文 
中 实现 的 归并 和 练习 2.2.10 所 实现 的 归并 之 间 的 性 能 。 根 据 经 验 给 出 应 该 在 何 时 为 子 数组 切换 
到 插入 排序 。 

2.2.24 改进 的 有 序 测试 。 在 实验 中 用 大 型 随机 数组 评估 练习 2.2.8 所 做 的 修改 的 效果 。 根 据 经 验 用 N (被 
排序 的 原始 数组 的 大 小 ) 的 函数 描述 条 件 语 句 (a[mid] < =a[mid+1] ) 成 立 ( 无 论 数 组 是 否 有 序 ) 
的 平均 次 数 。 

2.2.25 多 向 归并 排序 。 实 现 一 个 kk 向 ( 相对 双向 而 言 ) 归并 排序 程序 。 分 析 你 的 算法 ,估计 最 佳 的 

2.2.26 创建 数组 。 使 用 SortCompare 粗略 比较 在 你 的 计算 机 上 在 merge() 中 和 在 sort() 中 创建 
aux[] 的 性 能 差异 。 

2.2.27 子 数 组 长 度 。 用 归并 将 大 型 随机 数组 排序 ， 根 据 经 验 用 N ( 某 次 归并 时 两 个 子 数组 的 长 度 之 和 ) 
的 函数 估计 当 一 个 子 数组 用 尽 时 另 一 个 子 数组 的 平均 长 度 。 

2.2.28 自 顶 向 下 与 自 底 向 上 。 对 于 N=10”、10*、10” 和 10", 使 用 SortCompare 比较 自 顶 向 下 和 自 底 向 
上 的 归并 排序 的 性 能 。 

2.2.29 ”自然 的 归并 排序 。 对 于 N=10 、10 和 10”， 类 型 为 Long 的 随机 主键 数组 ， 根 据 经 验 给 出 自然 的 
归并 排序 ( 请 见 练习 2.2.16 ) 所 需要 的 遍 数 。 提 示 : 不 需要 实现 这 个 排序 (甚至 不 需要 生成 所 有 
完整 的 64 位 主键 ) 也 能 完成 这 道 练习 。 287 
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2.3 快速 排序 


本 节 的 主题 是 快速 排序 , 它 可 能 是 应 用 最 广泛 的 排序 算法 了 。 快速 排序 流行 的 原因 是 它 实现 简单 、 
适用 于 各 种 不 同 的 输入 数据 且 在 一 般 应 用 中 比 其 他 排序 算法 都 要 快 得 多 。 快 速 排序 引 人 注 目的 特点 包 
括 它 是 原 地 排序 ( 只 需要 一 个 很 小 的 辅助 栈 ) ， 且 将 长 度 为 的 数组 排序 所 需 的 时 间 和 NlgN 成 正比 。 
我 们 已 经 学 习 过 的 排序 算法 都 无 法 将 这 两 个 优点 结合 起 来 。 另 外 ， 快 速 排序 的 内 循环 比 大 多 数 排序 算 
法 都 要 短小 ， 这 意味 着 它 无 论 是 在 理论 上 还 是 在 实际 中 都 要 更 快 。 它 的 主要 缺点 是 非常 脆弱 ， 在 实现 
时 要 非常 小 心 才能 避免 低劣 的 性 能 。 已 经 有 无 数 例子 显示 许多 种 错误 都 能 致使 它 在 实际 中 的 性 能 只 
有 平方 级 别 。 幸 好 我 们 将 会 看 到 ， 由 这 些 错 误 中 学 到 的 教训 也 大 大 改进 了 快速 排序 算法 ， 使 它 的 应 
用 更 加 广泛 。 


2.3.1 基本 算法 

快速 排序 是 一 种 分 治 的 排序 算法 。 它 将 一 个 数组 分 成 两 个 子 数组 ， 将 两 部 分 独立 地 排序 。 快 速 排 
序 和 归并 排序 是 互补 的 : 归并 排序 将 数组 分 成 两 个 子 数组 分 别 排序 ， 并 将 有 序 的 子 数组 归并 以 将 整个 
数组 排序 ;而 快速 排序 将 数组 排序 的 方式 则 是 当 两 个 子 数组 都 有 序 时 整个 数组 也 就 自然 有 序 了 。 在 第 
一 种 情况 中 ,递归 调用 发 生 在 处 理 整个 数组 之 前 ; 在 第 二 种 情况 中 ,递归 调用 发 生 在 处 理 整 个 数组 之 后 。 
在 归并 排序 中 ,一 个 数组 被 等 分 为 两 半 ; 在 快速 排序 中 ， 切 分 (partition ) 的 位 置 取决 于 数组 的 内 容 。 
快速 排序 的 大 致 过 程 如 图 2.3.1 所 示 。 
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图 2.3.1 快速 排序 示意 图 
快速 排序 的 实现 过 程 如 算法 2.5 所 示 。 
算法 2.5 ”快速 排序 
public class Quick 
public static void sort(Comparable[] a) 


StdRandom. shuffle(a); // 消除 对 输入 的 依赖 
sort(a, 0, a.length - 1); 


private static void sort(Comparable[] a, int lo, int hi) 


if (hi <= 10) return; 

int j = partition(a，10o，hi); // 功 分 (请 见 “ 快 速 排序 的 切 分 ”) 
sort(a, 15, j=1); // 将 左 半 部 分 a[]o .. j-1] 排 序 
sort(a, j+1, hi); // 将 右 半 部 分 a[j+1 .. hi] 排 序 
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快速 排序 递归 地 将 子 数组 a[1o. .hi] 排序 ， 先 用 partition() 方法 将 a[j] 放 到 一 个 合适 位 置 ， 然 
后 再 用 递归 调用 将 其 他 位 置 的 元 素 排序 。 
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该 方法 的 关键 在 于 切 分 ， 这 个 过 程 使 得 数组 满足 下 面 三 个 条 件 : 

口 对 于 某 个 j，a[j] 已 经 排 定 ; 

口 a[10] 到 a[j-1] 中 的 所 有 元 素 都 不 大 于 a[j]; 

口 a[j+1] 到 a[hi] 中 的 所 有 元 素 都 不 小 于 a[j]。 

我 们 就 是 通过 递归 地 调用 切 分 来 排序 的 。 

因为 切 分 过 程 总 是 能 排 定 一 个 元 素 ， 用 归纳 法 不 难 证 明 递 归 能 够 正确 地 将 数组 排序 : 如 果 左 子 
数组 和 右 子 数组 都 是 有 序 的 ， 那 么 由 左 子 数组 (有 序 且 没有 任何 元 素 大 于 切 分 元 素 ) 、 切 分 元 素 和 
右 子 数组 ( 有 序 且 没有 任何 元 素 小 于 切 分 元 素 ) 组 成 的 结果 数组 也 一 定 是 有 序 的 。 算 法 2.5 就 是 实 
现 了 这 个 思路 的 一 个 递归 程序 。 它 是 一 个 随机 化 的 算法 ,因为 它 在 将 数组 排序 之 前 会 将 其 随机 打 乱 。 
我 们 这 么 做 的 原因 是 希望 能 够 预测 ( 并 依赖 ) 该 算法 的 性 能 特性 ， 之 后 我 们 会 详细 讨论 。 

要 完成 这 个 实现 ， 需 要 实现 切 分 方法 。 一 般 策 略 是 先 RS 
随意 地 取 a[1o] 作为 切 分 元 素 ， 即 那个 将 会 被 排 定 的 元 素 ， 。 切 分 前 v| 


然后 我 们 从 数组 的 左 端 开始 向 右 扫描 直到 找到 一 个 大 于 等 To hi 





于 它 的 元 素 ， 再 从 数组 的 右 端 开始 向 左 扫描 直到 找到 一 个 。 切 分 由 Mv] 

小 于 等 于 它 的 元 素 。 这 两 个 元 素 显然 是 没有 排 定 的 ， 因 此 

我 们 交换 它们 的 位 置 。 如 此 继续 ， 我 们 就 可 以 保证 左 指针 。 切 % 后 [三 六 一 全 一 ] 
i 的 左 侧 元 素 都 不 大 于 切 分 元 素 ， 右 指针 j 的 右 侧 元 素 都 i wa 
不 小 于 切 分 元 素 。 当 两 个 指针 相遇 时 ， 我 们 只 需要 将 切 分 现 j Mm 


元 素 a[10] 和 左 子 数组 最 右 侧 的 元 素 ( a[j] ) 交换 然后 返 图 2.3.2 快速 排序 的 切 分 示意 图 
回 j 即 可 。 切 分 方法 的 大 致 过 程 如 图 2.3.2 所 示 。 
这 段 快速 排序 的 实现 代码 中 还 有 几 个 细节 问题 值得 一 提 ， 因 为 它们 都 可 能 导致 实现 错误 或 是 影响 
性 能 ， 我 们 会 在 下 面 讨论 。 本 节 稍 后 我 们 会 研究 算法 的 三 个 高 层次 的 改进 。 290 
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快速 排序 的 切 分 的 实现 如 下 所 示 。 
快速 排序 的 切 分 


private static int partition(Comparable[] a, int lo, int hi) 
{ // 将 数组 切 分 为 a[1o.,i-1]，a[i]，a[i+l..hi] 
nt 1 = 10, 了 三 his1s // 左右 扫描 指针 
Comparable v = a[1o]; // 切 分 元 素 
while (true) 
{ // 扫描 左右 ， 检 查 扫 描 是 否 结束 并 交换 元 素 
while (less(a[++i], v)) if (i == hi) break; 
while (less(v, a[--j])) if (j == 10) break; 
if ‘(1 5= 1» breaks 
exch(a, i, j); 


} 
exch(a, 10, j); // 将 v = a[j] 放 入 正确 的 位 置 
return j; // a[1o..j-1] <= a[j] <= a[j+1..hi] 达成 


} 


这 段 代 码 按照 a[10] 的 值 v 进行 切 分 。 当 指针 i 和 j 相遇 时 主 循 环 退 出 。 在 循环 中 ，a[i] 小 于 v 时 
我 们 增 大 i ，a[j] 大 于 v 时 我 们 减 小 j， 然 后 交换 a[i] 和 a[j] 来 保证 i 左 侧 的 元 素 都 不 大 于 v，j 右 侧 
的 元 素 都 不 小 于 v。 当 指针 相遇 时 交换 a[10] 和 a[j] ， 切 分 结束 ( 这 样 切 分 值 就 留 在 a[j] 中 了 ) 。 
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切 分 轨迹 每 次 交换 前 后 的 数组 内 容 ) 





2.3.1.1 原 地 切 分 

如 果 使 用 一 个 辅助 数组 ， 我 们 可 以 很 容易 实现 切 分 ， 但 将 切 分 后 的 数组 复制 回去 的 开销 也 许 会 
使 我 们 得 不 偿 失 。 一 个 初级 Java 程序 员 甚至 可 能 会 将 空 数 组 创建 在 递归 的 切 分 方法 中 ， 这 会 大 大 降 
低 排 序 的 速度 。 
2.3.1.2 ” 别 越界 

如 果 切 分 元 素 是 数组 中 最 小 或 最 大 的 那个 元 素 ， 我 们 就 要 小 心 别 让 扫描 指针 跑 出 数组 的 边界 。 
partition() 实现 可 进行 明确 的 检测 来 预防 这 种 情况 。 测 试 条 件 (j == 1o ) 是 元 余 的 ， 因 为 切 分 
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元 素 就 是 a[1o] ， 它 不 可 能 比 自己 小 。 数 组 右 端 也 有 相同 的 情况 ， 它 们 都 是 可 以 去 掉 的 ( 请 见 练习 
a 
2.3.1.3 ”保持 随机 性 

数组 元 素 的 顺序 是 被 打 乱 过 的 。 因 为 算法 2.5 对 所 有 的 子 数组 都 一 视 同仁 ， 它 的 所 有 子 数组 也 
都 是 随机 排序 的 。 这 对 于 预测 算法 的 运行 时 间 很 重要 。 保 持 随 机 性 的 另 一 种 方法 是 在 partition() 
中 随机 选择 一 个 切 分 元 素 。 
2.3.1.4 终止 循环 

有 经 验 的 程序 员 都 知道 保证 循环 结束 需要 格外 小 心 ， 快 速 排序 的 切 分 循环 也 不 例外 。 正 确 地 检 
测 指针 是 否 越界 需要 一 点 技巧 ， 并 不 像 看 上 去 那么 容易 。 一 个 最 常见 的 错误 是 没有 考虑 到 数组 中 可 
能 包含 和 切 分 元 素 的 值 相 同 的 其 他 元 素 。 
2.3.1.5 “处理 切 分 元 素 值 有 重复 的 情况 

如 算法 2.5 所 示 ， 左 侧 扫描 最 好 是 在 遇 到 大 于 等 于 切 分 元 素 值 的 元 素 时 停 下 ， 右 侧 扫描 则 是 遇 
到 小 于 等 于 切 分 元 素 值 的 元 素 时 停 下 。 尽 管 这 样 可 能 会 不 必要 地 将 一 些 等 值 的 元 素 交 换 ， 但 在 某 些 
典型 应 用 中 ， 它 能 够 避免 算法 的 运行 时 间 变 为 平方 级 别 (请 见 练习 2.3.11 ) 。 稍 后 我 们 会 讨论 另 一 
种 可 以 更 好 地 处 理 含有 大 量 重复 值 的 数组 的 方法 。 
2.3.1.6 ”终止 递归 

有 经 验 的 程序 员 还 知道 保证 递归 总 是 能 够 结束 也 是 需要 小 心 的 ， 快 速 排 序 也 不 例外 。 例 如 ， 实 
现 快速 排序 时 一 个 常见 的 错误 就 是 不 能 保证 将 切 分 元 素 放 入 正确 的 位 置 ， 从 而 导致 程序 在 切 分 元 素 
正好 是 子 数组 的 最 大 或 是 最 小 元 素 时 陷入 了 无 限 的 递归 循环 之 中 。 


2.3.2 性 能 特点 

数学 上 已 经 对 快速 排序 进行 了 详尽 的 分 析 ， 因 此 我 们 能 够 精确 地 说 明 它 的 性 能 。 大 量 经 验 也 证 
明了 这 些 分 析 ， 它 们 是 算法 调 优 时 的 重要 工具 。 

快速 排序 切 分 方法 的 内 循环 会 用 一 个 递增 的 索引 将 数组 元 素 和 一 个 定 值 比 较 。 这 种 简洁 性 
也 是 快速 排序 的 一 个 优点 ， 很 难 想象 排序 算法 中 还 能 有 比 这 更 短小 的 内 循环 了 。 例 如 ， 归 并 
排序 和 和 希 尔 排 序 一 般 都 比 快速 排序 慢 ， 其 原因 就 是 它们 还 在 内 循环 中 移动 数据 。 

快速 排序 另 一 个 速度 优势 在 于 它 的 比较 次 数 很 少 。 排 序 效率 最 终 还 是 依赖 切 分 数组 的 效果 ， 而 
这 依赖 于 切 分 元 素 的 值 。 切 分 将 一 个 较 大 的 随机 数组 分 成 两 个 随机 子 数组 ， 而 实际 上 这 种 分 割 可 能 
发 生 在 数组 的 任意 位 置 ( 对 于 元 素 不 重复 的 数组 而 言 ) 。 下 面 我 们 来 分 析 这 个 算法 ， 看 看 这 种 方法 
和 理想 方法 之 间 的 差距 。 

快速 排序 的 最 好 情况 是 每 次 都 正好 能 将 数组 对 半分 。 在 这 种 情况 下 快速 排序 所 用 的 比较 次 数 正 
好 满足 分 治 递归 的 Cy=2CwztN 公式 。2Cw 表示 将 两 个 子 数组 排序 的 成 本 ，N 表示 用 切 分 元 素 和 所 
有 数组 元 素 进 行 比较 的 成 本 。 由 归并 排序 的 命题 的 证 明 可 知 ， 这 个 递归 公式 的 解 Cy-Nlgv。 尽 管 
事情 并 不 总 会 这 么 顺利 ， 但 平均 而 言 切 分 元 素 都 能 落 在 数组 的 中 间 。 将 每 个 切 分 位 置 的 概率 都 考虑 
进去 只 会 使 递归 更 加 复杂 、 更 难 解决 ， 但 最 终结 果 还 是 类 似 的 。 我 们 对 快速 排序 的 信心 来 自 于 这 个 
结论 的 证 明 。 如 果 你 不 喜欢 数学 公式 ， 可 以 跳 过 这 个 证 明 ， 相 信 它 即 可 ; 如 果 你 喜欢 ， 你 会 发 现 它 
很 有 趣 。 
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命题 K。 将 长 度 为 入 的 无 重复 数组 排序 ,快速 排序 平均 需要 ~2NInN 次 比较 (以 及 1/6 的 交换 ) 。 


证 阴 。 令 Cy 为 将 入 个 不 同 元 素 排 序 平 均 所 需 的 比较 次 数 。 显 然 Co=Ci=0， 对 于 AP1， 由 递归 
293 程序 可 以 得 到 以 下 归纳 关系 : 
Cw=N+1+(CotCi+:…+Cw 2+CNv NN+(Cy tCw att+Co/N 


第 一 项 是 切 分 的 成 本 ( 总 是 N+1) ,第 二 项 是 将 左 子 数组 (长 度 可 能 是 0 到 N-1) 排序 的 平均 成 本 ， 
第 三 项 是 将 右 子 数组 (长度 和 左 子 数组 相同 ) 排 序 的 平均 成 本 。 将 等 式 左右 两 边 乘 以 N 并 整理 各 项 得 到 
NCw=N(N+1)+2(CotCi+-…+Cw s+Cw 1) 


将 该 等 式 减 去 N-1 时 的 相同 等 式 可 得 : 
~ NC (N_1)Cy =2N+2Cy, 


整理 等 式 并 将 两 边 除 以 N(N+1) 可 得 : 
CWCVHD)=CwVN+2/(CV+HD) 
归纳 法 推导 可 得 : 
Cw2(VHD(LU3+1/4+.…+1/CV+HI)) 
括号 内 的 量 是 曲线 2/x 下 从 3 到 NN 的 离散 近似 面积 加 一 ， 积 分 得 到 Cy-2NInN。 注 意 到 
2NInN > 1.39NgN， 也 就 是 说 平均 比较 次 数 只 比 最 好 情况 多 39%。 
要 得 到 命题 中 的 交换 次 数 需要 一 个 类 似 ( 但 更 加 复杂 的 ) 分 析 。 


在 实际 应 用 中 ， 当 数组 元 素 可 能 重复 时 ， 精 确 的 分 析 会 相当 复杂 ， 但 不 难 证 明 即 使 存在 重复 的 

元 素 ， 平 均 比 较 次 数 也 不 会 大 于 Cy (在 2.3.3.3 节 中 我 们 会 改进 快速 排序 在 这 种 情况 下 的 性 能 ) 。 
尽管 快速 排序 有 很 多 优点 ， 它 的 基本 实现 仍 有 一 个 潜在 的 缺点 : 在 切 分 不 平衡 时 这 个 程序 可 能 会 
极为 低 效 。 例 如 ， 如 果 第 一 次 从 最 小 的 元 素 切 分 ， 第 二 次 从 第 二 小 的 元 素 切 分 ， 如 此 这 般 ， 每 次 调用 

只 会 移 除 一 个 元 素 。 这 会 导致 一 个 大 子 数组 需要 切 分 很 多 次 。 我 们 要 在 快速 排序 前 将 数组 随机 排序 的 
294| 主要 原因 就 是 要 避免 这 种 情况 。 它 能 够 使 产生 糟糕 的 切 分 的 可 能 性 降 到 极 低 , 我 们 就 无 需 为 此 担心 了 。 


命题 L。 快 速 排序 最 多 需要 约 N- /2 次 比较 ， 但 随机 打 乱 数组 能 够 预防 这 种 情况 。 


证 明 。 根 据 刚才 的 证 明 ， 在 每 次 切 分 后 两 个 子 数 组 之 一 总 是 空 的 情况 下 ， 比 较 次 数 为 : 
N+(N-1)+(N-2)+-…+2+1=(N+1)N/2 

这 不 仅 说 明 算 法 所 需 的 时 间 是 平方 级 别 的 ， 也 显示 了 算法 所 需 的 空间 是 线性 的 ， 而 这 对 于 大 数 
组 来 说 是 不 可 接受 的 。 但 是 (经 过 一 些 复杂 的 工作 ) 通过 扩展 对 一 般 情况 的 分 析 我 们 可 以 得 到 
比较 次 数 的 标准 差 约 为 0.65N。 因 此 ， 随 着 入 的 增 大 ， 运 行 时 间 会 趋 近 于 平均 数 ， 且 不 可 能 与 
平均 数 偏差 太 大 。 例 如 ， 对 于 一 个 有 100 万 个 元 素 的 数组 ， 由 Chebyshev 不 等 式 可 以 粗略 地 估 
计 出 运行 时 间 是 平均 所 需 时 间 的 10 倍 的 概率 小 于 0.000 01 ( 且 真 实 的 概率 还 要 小 得 多 ) 。 对 于 
大 数组 ， 运 行 时 间 是 平方 级 别 的 概率 小 到 可 以 忽略 不 计 (请 见 练习 2.3.10 ) 。 例 如 ， 快 速 排序 
所 用 的 比较 次 数 和 插入 排序 或 者 选择 排序 一 样 多 的 概率 比 你 的 电脑 在 排序 时 被 闪电 击 中 的 概率 
都 要 小 得 多 ! 
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总 的 来 说 ， 可 以 肯定 的 是 对 于 大 小 为 的 数组 ,算法 2.5 的 运行 时 间 在 1.39NlgN 的 某 个 常 
数 因 子 的 范围 之 内 。 归 并 排序 也 能 做 到 这 一 点 ， 但 是 快速 排序 一 般 会 更 快 (尽管 它 的 比较 次 数 多 
39% ) ， 因 为 它 移动 数据 的 次 数 更 少 。 这 些 保 证 都 来 自 于 数学 概率 ， 你 完全 可 以 相信 它 。 


2.3.3 ”算法 改进 

快速 排序 是 由 C.A.R Hoare 在 1960 年 发 明 的 ， 从 那 时 起 就 有 很 多 人 在 研究 并 改进 它 。 改 进 快速 
排序 总 是 那么 吸引 人 ， 发 明 更 快 的 排序 算法 就 好 像 是 计算 机 科学 届 的 “老鼠 夹子 ”， 而 快速 排序 就 是 
夹子 里 的 那 块 奶 酷 。 几 乎 从 Hoare 第 一 次 发 表 这 个 算法 开始 ， 人 们 就 不 断 地 提出 各 种 改进 方法 。 并 不 
是 所 有 的 想法 都 可 行 ， 因 为 快速 排序 的 平衡 性 已 经 非常 好 ， 改 进 所 带 来 的 提高 可 能 会 被 意外 的 副作用 
所 抵消 。 但 其 中 一 些 ， 也 是 我 们 现在 要 介绍 的 ， 非 常 有 效 。 2 

如 果 你 的 排序 代码 会 被 执行 很 多 次 或 者 会 被 用 在 大 型 数组 上 【特别 是 如 果 它 会 被 发 布 成 一 个 
库 函 数 ， 排 序 的 对 象 数组 的 特性 是 未 知 的 ) ， 那 么 下 面 所 讨论 的 这 些 改进 意见 值得 你 参考 。 需 要 注 
意 的 是 ， 你 需要 通过 实验 来 确定 改进 的 效果 并 为 实现 选择 最 佳 的 参数 。 一 般 来 说 它们 能 将 性 能 提升 
20% ~ 30%。 
2.3.3.1 切换 到 插入 排序 

和 大 多 数 递归 排序 算法 一 样 ， 改 进 快速 排序 性 能 的 一 个 简单 办 法 基于 以 下 两 点 : 

口 对 于 小 数组 ， 快 速 排序 比 插入 排序 慢 ; 

口 因为 递归 ， 快 速 排 序 的 sort 0) 方法 在 小 数组 中 也 会 调用 自己 。 

因此 ， 在 排序 小 数组 时 应 该 切换 到 插入 排序 。 简 单 地 改动 算法 2.5 就 可 以 做 到 这 一 点 : 将 
sortQ 中 的 语句 

if (hi <= 10) return; 

替换 成 下 面 这 条 语句 来 对 小 数组 使 用 插入 排序 

if (hi <= lo + M) { Insertion.sort(a, 1o, hi); return; } 

转换 参数 M 的 最 佳 值 是 和 系统 相关 的 ,但 是 5 ~ 15 之 间 的 任意 值 在 大 多 数 情况 下 都 能 令 人 满 
意 ( 请 见 练习 2.3.25 ) 。 
2.3.3.2 三 取样 切 分 

改进 快速 排序 性 能 的 第 二 个 办 法 是 使 用 子 数 组 的 一 小 部 分 元 素 的 中 位 数 来 切 分 数组 。 这 样 做 得 
到 的 切 分 更 好 ， 但 代价 是 需要 计算 中 位 数 。 人 们 发 现 将 取样 大 小 设 为 3 并 用 大 小 居中 的 元 素 切 分 的 
效果 最 好 ( 请 见 练习 2.3.18 和 练习 2.3.19 ) 。 我 们 还 可 以 将 取样 元 素 放 在 数组 末尾 作为 “哨兵 ”来 
去 掉 partition() 中 的 数组 边界 测试 。 使 用 三 取样 切 分 的 快速 排序 轨迹 如 图 2.3.3 所 示 。 
2.3.3.3 ” 粒 最 优 的 排序 

实际 应 用 中 经 常会 出 现 含 有 大 量 重复 元 素 的 数组 ， 例 如 我 们 可 能 需要 将 大 量 人 员 资料 按照 生日 
排序 ， 或 是 按照 性 别 区 分 开 来 。 在 这 些 情 况 下 ， 我 们 实现 的 快速 排序 的 性 能 尚 可 ， 但 还 有 巨大 的 改 
进 空间 。 例 如 ， 一 个 元 素 全 部 重复 的 子 数 组 就 不 需要 继续 排序 了 ， 但 我 们 的 算法 还 会 继续 将 它 切 分 
为 更 小 的 数组 。 在 有 大 量 重复 元 素 的 情况 下 ， 快 速 排序 的 递归 性 会 使 元 素 全 部 重复 的 子 数组 经 常 出 
现 ， 这 就 有 很 大 的 改进 潜力 ， 将 当前 实现 的 线性 对 数 级 的 性 能 提高 到 线性 级 别 。 

一 个 简单 的 想法 是 将 数组 切 分 为 三 部 分 ， 分 别 对 应 小 于 、 等 于 和 大 于 切 分 元 素 的 数组 元 素 。 这 
种 切 分 实现 起 来 比 我 们 目前 使 用 的 二 分 法 更 复杂 ， 人 们 为 解决 它 想 出 了 许多 不 同 的 办 法 。 这 也 是 
E. W. Dijkstra 的 荷兰 国旗 问题 引发 的 一 道 经 典 的 编程 练习 ， 因 为 这 就 好 像 用 三 种 可 能 的 主键 值 将 数 
组 排序 一 样 ， 这 三 种 主键 值 对 应 着 荷兰 国旗 上 的 三 种 颜色 。 
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图 2.3.3 使 用 了 三 取样 切 分 和 插入 排序 转换 的 快速 排序 ( 另 见 彩 插 ) 


MD 
oy 
+- 


Dijkstra 的 解法 如 “三 向 切 分 的 快速 排序 ”中 极为 简洁 的 切 分 代码 所 示 。 它 从 左 到 右 遍 历数 组 
一 次 ， 维 护 一 个 指针 1t 使 得 a[1o. .1t-1] 中 的 元 素 都 小 于 v， 一 个 指针 gt 使 得 a[gt+1. .hi] 中 
的 元 素 都 大 于 v， 一 个 指针 i 使 得 a[1t. .i-1] 中 的 元 素 都 等 于 v，a[i. .gt] 中 的 元 素 都 还 未 确定 ， 
如 图 2.3.4 所 示 。 一 开始 i 和 1o 相等 ， 我 们 使 用 Comparable 接口 (而 非 less() ) 对 a[i] 进行 三 


问 比 较 来 直接 处 理 以 下 情况 : 
口 a[ 让 小 于 v, 将 a[1t] 和 a[i] 交换 , 将 1t 和 1 加 一 ; 
口 a[i] 大 于 v, 将 a[gt] 和 a[i] 交换 ， 将 gt 减 一 ; 
口 a[i] 等 于 v, 将 i 加 一 。 


这 些 操作 都 会 保证 数组 元 素 不 变 且 缩小 gt-i 的 值 (这样 循 环 才 会 结束 ) 。 另 外 ， 除 非 和 切 分 


元 素 相 等 ， 其 他 元 素 都 会 被 交换 。 
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20 世纪 70 年 代 ， 快 速 排序 发 布 不 久 后 这 段 代码 。 ” 切 分 前 
就 出 现 了 ,但 它 并 没有 流行 开 来 ， 因 为 在 数组 中 重复 i 


元 素 不 多 的 普通 情况 下 它 比 标准 的 二 分 法 多 使 用 了 很 
多 次 交换 。90 年 代 ，J. Bently 和 D. McIlroy 找到 一 个 





聪明 的 方法 解决 了 这 个 问题 (请 见 练习 2.3.22) , 使。 所 | 
得 三 向 切 分 的 快速 排序 比 归并 排序 和 其 他 排序 方法 在 于 EY 
包括 重复 元 素 很 多 的 实际 应 用 中 更 快 。 之 后 ，J Bently i: 9t i 
和 R. Sedgewick 证 明了 这 一 点 ， 我 们 会 在 下 面 讨论 。 图 2.3.4 三 向 切 分 的 示意 图 


但 我 们 已 经 证 明 过 归并 排序 是 最 优 的 。 如 何 才 能 突破 它 的 下 界 ? 这 个 问题 的 答案 在 于 2.2 节 的 

命题 1 讨论 的 是 对 任意 输入 的 最 差 性 能 ， 而 我 们 目前 在 讨论 时 已 经 知道 输入 数组 的 一 些 信 息 了 。 对 

于 含有 以 任意 概率 分 布 的 重复 元 素 的 输入 ， 归 并 排序 无 法 保证 最 佳 性 能 。 298 
三 向 切 分 的 快速 排序 的 实现 如 下 所 示 。 


三 向 切 分 的 快速 排序 


public class Quick3way 
{ 


private static void sort(Comparable[] a, int 1o, int hi) 
{ // 调用 此 方法 的 公有 方法 sort() 请 见 算法 2.5 

if (hi <= 10) return; 

int t= 1605 TE 106， gt = his 

Comparable v = a[lo]; 

while (i <= gt) 


int cmp = a[il].compareTo(v); 

于 个 (cmp < 0) exch(a, lt++, i++); 
else if (cmp > 0) exch(a, i, gt--); 
else i++; 


} // 现在 a[lo..1t-1] < vV = arlt..gt] < a[gt+1..hi] 成 立 
sort(a, 1o, lt - 1); 


sort(a, gt + 1, hi); 
V a[] 


> 1t i gt\01234567 8 91011 
0 6 还 
这 段 排序 代码 的 切 分 能 够 将 和 切 0 1 11 RE R 
分 元 素 相 等 的 元 素 归 位 ， 这 样 它们 就 不 RW R 
会 被 包含 在 递归 调用 处 理 的 子 数组 之 中  . 间 玉 R R B 
了 。 对 于 存在 大 量 重复 元 素 的 数组 ， 这 1 3 10 R W B 
种 方法 比 标准 的 快速 排序 的 效率 高 得 多 1 3 9 RBBB | 
(请 见 正文 ) 。 re :和 
三 向 分 切 的 快速 排序 的 可 视 轨 迹 站 二 机 R 
如 图 2.3.5 所 示 。 5 区 R R R 
2 也 R B R 
和 R R 
:时 R RW 
3 8 7 BBBRRR RRWW WW 


三 向 切 分 的 轨迹 《每 次 迭代 循环 之 后 的 数组 内 容 ) 299 


190 区 第 2 章 排 序 


ELEE LE 
和 切 分 元 素 相等 的 元 素 、、 


图 2.3.5 ”三 向 切 分 的 快速 排序 的 可 视 轨迹 ( 另 见 彩 插 ) 





例如 ， 对 于 只 有 若干 不 同 主键 的 随机 数组 ， 归 并 排序 的 时 间 复 杂 度 是 线性 对 数 的 ， 而 三 向 切 分 
快速 排序 则 是 线性 的 。 从 上 面 的 可 视 轨 迹 就 可 以 看 出 ， 主 键 值 数量 的 N 倍 是 运行 时 间 的 一 个 保守 的 
下 有 6 

这 些 准确 的 结论 来 自 于 对 主键 概率 分 布 的 分 析 。 给 定 包含 个 不 同 值 的 入 个 主键 ,对 于 从 1 到 
的 每 个 i， 定 义 f 为 第 i 个 主键 值 出 现 的 次 数 ，p; 为 WN， 即 为 随机 抽取 一 个 数组 元 素 时 第 i 个 主 
键 值 出 现 的 概率 。 那 么 所 有 主键 的 香农 信息 量 ( 对 信息 含量 的 一 种 标准 的 度量 方法 ) 可 以 定义 为 : 


H=-(pilgpit+ pylgpst:…+ prlgpn) 


给 定 任 意 一 个 待 排序 的 数组 ， 通 过 统计 每 个 主键 值 出 现 的 频率 就 可 以 计算 出 它 包含 的 信息 量 。 
值得 一 提 的 是 ， 可 以 通过 这 个 信息 量 得 出 三 向 切 分 的 快速 排序 所 需要 的 比较 次 数 的 上 下 界 。 


命题 M。 不 存在 任何 基于 比较 的 排序 算法 能 够 保证 在 NH-N 次 比较 之 内 将 入 个 元 素 排 序 ， 其 中 
人 及 为 由 主键 值 出 现 频率 定义 的 香农 信息 量 。 


300 略 证。 将 2.2 节 的 命题 中 下 界 的 证 明 ( 相对 简单 地 ) 一 般 化 即 可 证 明 该 结论 。 


命题 N。 对 于 大 小 为 入 的 数组 ， 三 向 切 分 的 快速 排序 需要 ~(2In2)NH 次 比较 。 其 中 采 为 由 主键 
值 出 现 频 率 定义 的 香农 信息 量 。 


略 证 。 将 命题 KK 中 快速 排序 的 普通 情况 的 分 析 ( 相对 困难 地 ) 通用 化 即 可 证 明 该 结论 。 在 所 有 
主键 都 不 重复 的 情况 下 ， 它 比 最 优 解 所 需 比较 多 39% (但 仍 在 常数 因子 的 范围 之 内 ) 。 


请 注意 ， 当 所 有 的 主键 值 均 不 重复 时 有 f=lgN (所 有 主键 的 概率 均 为 /IN) ， 这 和 2.2 节 的 命 
题 I 以 及 命题 K 是 一 致 的 。 三 向 切 分 的 最 坏 情况 正 是 所 有 主键 均 不 相同 。 当 存在 重复 主键 时 ， 它 的 
性 能 就 会 比 归并 排序 好 得 多 。 更 重要 的 是 ， 这 两 个 性 质 一 起 说 明了 三 向 切 分 是 信息 量 最 优 的 ， 即 对 
于 任意 分 布 的 输入 ， 最 优 的 基于 比较 的 算法 平均 所 需 的 比较 次 数 和 三 向 切 分 的 快速 排序 平均 所 需 的 
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比较 次 数 相 互 处 于 常数 因子 范围 之 内 。 

对 于 标准 的 快速 排序 ， 随 着 数组 规模 的 增 大 其 运行 时 间 会 趋 于 平均 运行 时 间 ， 大 幅 偏 离 的 情况 
非常 罕见 ， 因 此 可 以 肯定 三 向 切 分 的 快速 排序 的 运行 时 间 和 输入 的 信息 量 的 V 倍 是 成 正比 的 。 在 实 
际 应 用 中 这 个 性 质 很 重要 ， 因 为 对 于 包含 大 量 重 复元 素 的 数组 ， 它 将 排序 时 间 从 线性 对 数 级 降低 到 
了 线性 级 别 。 这 和 元 素 的 排列 顺序 没有 关系 ， 因 为 算法 会 在 排序 之 前 将 其 打 乱 以 避免 最 坏 情况 。 元 
素 的 概率 分 布 决定 了 信息 量 的 大 小 ， 没 有 基于 比较 的 排序 算法 能 够 用 少 于 信息 量 决定 的 比较 次 数 完 
成 排序 。 这 种 对 重复 元 素 的 适应 性 使 得 三 向 切 分 的 快速 排序 成 为 排序 库 函 数 的 最 佳 算 法 选择 一 一 需 
要 将 包含 大 量 重 复元 素 的 数组 排序 的 用 例 很 常见 。 

经 过 精心 调 优 的 快速 排序 在 绝 大 多 数 计算 机 上 的 绝 大 多 数 应 用 中 都 会 比 其 他 基于 比较 的 排序 算 
法 更 快 。 快 速 排序 在 今天 的 计算 机 业界 中 的 广泛 应 用 正 是 因为 我 们 讨论 过 的 数学 模型 说 明了 它 在 实 
际 应 用 中 比 其 他 方法 的 性 能 更 好 ， 而 近 几 十 年 的 大 量 实验 和 经 验 也 证 明了 这 个 结论 。 

在 第 5 章 中 我 们 会 发 现 ， 这 些 并 不 是 快速 排序 发 展 的 终点 ， 因 为 有 人 研究 出 了 完全 不 需要 比较 
的 排序 算法 ! 但 快速 排序 的 男 一 个 版 本 在 那个 环境 下 仍然 是 最 棒 的 ， 和 这 里 一 样 。 301 


图 答疑 


问 有 没有 将 数组 平分 的 办 法 ， 而 不 是 根据 切 分 元 素 的 最 后 位 置 来 切 分 数组 ? 

答 ” 这 个 问题 困扰 了 专家 们 十 多 年 。 这 和 用 数组 的 中 位 数 切 分 的 想法 类 似 。 我 们 在 2.5.3.4 节 中 讨论 了 寻 
找 中 位 数 的 问题 。 在 线性 时 间 内 找到 是 可 能 的 ， 但 用 现 有 的 算法 ( 基于 快速 排序 的 切 分 ) ， 这 么 做 
的 代价 远 远 超 过 将 数组 平分 而 节省 的 39%。 

问 ”随机 地 将 数组 打 乱 似乎 占 了 排序 用 时 的 一 大 部 分 ， 这 么 做 值得 吗 ? 

答 值得 。 这 能 够 防止 出 现 最 坏 情况 并 使 运行 时 间 可 以 预计 。Hoare 在 1960 年 提出 这 个 算法 的 时 候 就 推 
荐 了 这 种 方法 一 一 它 是 一 种 ( 也 是 第 一 批 ) 偏爱 随机 性 的 算法 。 

问 为 什么 都 将 注意 力 放 在 重复 元 素 上 ? 

答 ”这 个 问题 直接 影响 到 实际 应 用 中 的 性 能 。 它 曾 被 忽略 了 数 十 年 ， 结 果 是 一 些 老 的 实现 对 含有 大 量 重 
复元 素 的 数组 排序 时 用 时 超过 平方 级 别 ， 这 在 实际 应 用 中 肯定 出 现 过 。 像 算法 2.5 等 较 好 的 实现 对 
于 这 种 数组 的 复杂 度 是 线性 对 数 级 别 的 ， 但 在 很 多 情况 下 ， 如 本 节 最 后 将 其 改进 为 信息 量 最 佳 的 线 
性 级 别 是 很 值得 的 。 


Up 
few] 
Bs) 


图 练习 


2.3.1 按照 partitionQ 方 法 的 轨迹 的 格式 给 出 该 方法 是 如 何 切 分 数组 EA SYQUESTI0ON 的 。 

2.3.2 ”按照 本 节 中 快速 排序 所 示 轨 迹 的 格式 给 出 快速 排序 是 如 何 将 数组 EA SYQUESTION 排 
序 的 (出 于 练习 的 目的 ， 可 以 忽略 开头 打 乱 数组 的 部 分 ) 。 

2.3.3 ”对 于 长 度 为 N 的 数组 ， 在 Quick.sort() 执行 时 ， 其 最 大 的 元 素 最 多 会 被 交换 多 少 次 ? 

2.3.4 ”假如 跳 过 开头 打 乱 数组 的 操作 ， 给 出 六 个 含有 10 个 元 素 的 数组 ， 使 得 Quick.sort() 所 需 的 比较 
次 数 达到 最 坏 情况 。 

2.3.5 ”给 出 一 段 代码 将 已 知 只 有 两 种 主键 值 的 数组 排序 。 

2.3.6 编写 一 段 代 码 来 计算 Cxv 的 准确 值 ， 在 N=100、1000 和 10 000 的 情况 下 比较 准确 值 和 估计 值 
2NInN 的 差距 。 
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ULD 


LUD 


2.3.71 


2.3.8 
2.3.9 


2.3.10 


2.3.11 


ZZ3.12 


2.3.13 


2.3.14 


在 使 用 快速 排序 将 入 个 不 重复 的 元 素 排序 时 ， 计 算 大 小 为 0、1 和 2 的 子 数组 的 数量 。 如 果 你 喜 
欢 数 学 ， 请 推导 ; 如 果 你 不 喜欢 ， 请 做 一 些 实验 并 提出 猜想 。 
Quick.sort() 在 处 理 入 个 全 部 重复 的 元 素 时 大 约 需 要 多 少 次 比较 ? 
请 说 明 Quick.sort() 在 处 理 只 有 两 种 主键 值 的 数组 时 的 行为 ， 以 及 在 处 理 只 有 三 种 主键 值 的 数 
组 时 的 行为 。 
Chebyshev 不 等 式 表 明 , 一 个 随机 变量 的 标准 差距 离 均值 大 于 大 的 概率 小 于 1/C。 对 于 N=100 万 ， 
用 Chebyshev 不 等 式 计算 快速 排序 所 使 用 的 比较 次 数 大 于 1000 亿 次 的 概率 (0.IV ) 。 
假如 在 遇 到 和 切 分 元 素 重 复 的 元 素 时 我 们 继续 扫描 数组 而 不 是 停 下 来 ,证 明 使 用 这 种 方法 的 快速 
排序 在 处 理 只 有 若干 种 元 素 值 的 数组 时 的 运行 时 间 是 平方 级 别 的 。 
按照 代码 所 示 轨 迹 的 格式 给 出 信息 量 最 佳 的 快速 排序 第 一 次 是 如 何 切 分 数组 B A BA BABA 
CADABRA 的 。 
在 最 佳 、 平 均 和 最 坏 情况 下 ,快速 排序 的 递归 深度 分 别 是 多 少 ?” 这 决定 了 系统 为 了 追踪 递归 调 
用 所 需 的 栈 的 大 小 。 在 最 坏 情 况 下 保证 递归 深度 为 数组 大 小 的 对 数 级 的 方法 请 见 练习 2.3.20。 
证 明 在 用 快速 排序 处 理 大 小 为 N 的 不 重复 数组 时 ， 比 较 第 i 大 和 第 大 元 素 的 概率 为 2/(j-i)， 并 
用 该 结论 证 明 命 题 K。 


图 提高 是 


2.3.15 


2.3.16 


2:3:17 


2.3.18 


2.3.19 


2.3.20 


螺丝 和 螺 帽 。(G. J. E. Rawlins) 假设 有 N 个 螺丝 和 N 个 螺 帽 混在 一 堆 ， 你 需要 快速 将 它们 配对 。 
一 个 螺丝 只 会 匹配 一 个 螺 帽 ， 一 个 螺 帽 也 只 会 匹配 一 个 螺丝 。 你 可 以 试 着 把 一 个 螺丝 和 一 个 螺 
帽 持 在 一 起 看 看 谁 大 了 ， 但 不 能 直接 比较 两 个 螺丝 或 者 两 个 螺 帽 。 给 出 一 个 解决 这 个 问题 的 有 
效 方法 。 

最 佳 情况 ”编写 一 段 程序 来 生成 使 算法 2.5 中 的 sortQ 方法 表现 最 佳 的 数组 ( 无 重复 元 素 ) : 
数组 大 小 为 N 且 不 包含 重复 元 素 ， 每 次 切 分 后 两 个 子 数 组 的 大 小 最 多 差 1 ( 子 数 组 的 大 小 与 含 
有 个 相同 元 素 的 数组 的 切 分 情况 相同 ) 。( 对 于 这 道 练习 , 我 们 不 需要 在 排序 开始 时 打 乱 数组 。) 
以 下 练习 描述 了 快速 排序 的 几 个 变 体 。 它 们 每 个 都 需要 分 别 实现 ， 但 你 也 很 自然 地 希望 使 用 
SortCompare 进行 实验 来 评估 每 种 改动 的 效果 。 

哨兵 。 修 改 算法 2.5， 去 掉 内 循环 while 中 的 边界 检查 。 由 于 切 分 元 素 本 身 就 是 一 个 哨兵 〈v 不 
可 能 小 于 a[10] ) ， 左 侧 边 界 的 检查 是 多 余 的 。 要 去 掉 另 一 个 检查 ， 可 以 在 打 乱 数组 后 将 数组 的 
最 大 元 素 放 在 a[length-1] 中 。 该 元 素 永远 不 会 移动 ( 除非 和 相等 的 元 素 交 换 ) ， 可 以 在 所 有 
包含 它 的 子 数组 中 成 为 哨兵 。 注 意 : 在 处 理 内 部 子 数组 时 ， 右 子 数组 中 最 左 侧 的 元 素 可 以 作为 
左 子 数组 右边 界 的 哨兵 。 

三 取样 切 分 。 为 快速 排序 实现 正文 所 述 的 三 取样 切 分 (参见 2.3.3.2 节 ) 。 运 行 双 倍 测试 来 确认 
这 项 改动 的 效果 。 

五 取样 切 分 。 实 现 一 种 基于 随机 抽取 子 数组 中 5 个 元 素 并 取 中 位 数 进行 切 分 的 快速 排序 。 将 取 
样 元 素 放 在 数组 的 一 侧 以 保证 只 有 中 位 数 元 素 参 与 了 切 分 。 和 运行 双 倍 测试 来 确定 这 项 改动 的 效 
果 ， 并 和 标准 的 快速 排序 以 及 三 取样 切 分 的 快速 排序 ( 请 见 上 一 道 练习 ) 进行 比较 。 附 加 题 : 
找到 一 种 对 于 任意 输入 都 只 需要 少 于 7 次 比较 的 五 取样 算法 。 

非 递归 的 快速 排序 。 实 现 一 个 非 递 归 的 快速 排序 ， 使 用 一 个 循环 来 将 弹出 栈 的 子 数组 切 分 并 将 结 
果子 数组 重新 压 人 栈 。 注意 : 先 将 较 大 的 子 数组 压 人 栈 , 这 样 就 可 以 保证 栈 最 多 只 会 有 lgN 个 元 素 。 
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2.3.21 将 重复 元 素 排序 的 比较 次 数 的 下 界 。 完 成 命题 M 的 证 明 的 第 一 部 分 。 参 考 命题 [ 的 证 明 并 注意 
当 有 个 主键 值 时 所 有 元 素 存 在 NVA1h!…h! 种 不 同 的 排列 , 其 中 第 i 个 主键 值 出 现 的 频率 为 f( 即 
Np;， 按 照 命 题 M 的 记 法 )， 且 fi+…+h=N。 

2.3.22 快速 三 向 切 分 。 (J. Bently，D. Mcllroy ) 用 将 排序 前 
重复 元 素 放置 于 子 数 组 两 端的 方式 实现 一 个 信息 人 
量 最 优 的 排序 算法 。 使 用 两 个 索引 p 和 9q， 使 得 
a[lo..p-1] 和 a[q+1..hi] 的 元 素 都 和 a[1o] 
相等 。 使 用 另外 两 个 索引 i 和 j, 使 得 a[p. .i-1] 
小 于 a[1o]，arj+i..q] 大 于 a[10]。 在 内 循环 mn n n 
中 加 入 代码 ， 在 a[i] 和 v 相当 时 将 其 与 a[p] 交 0 3 1 Mm 
换 (并 将 p 加 1), 在 a[j] 和 v 相等 且 a[i] 和 图 2.3.6 ”Bently-Mcllroy 三 向 切 分 
a[j] 尚未 和 v 进行 比较 之 前 将 其 与 a[q] 交换 。 
添加 在 切 分 循环 结束 后 将 和 v 相等 的 元 素 交换 到 正确 位 置 的 代码 ， 如 图 2.3.6 所 示 。 请 注意 : 这 
里 实现 的 代码 和 正文 中 给 出 的 代码 是 等 价 的 ,因为 这 里 额外 的 交换 用 于 和 切 分 元 素 相 等 的 元 素 ， 
而 正文 中 的 代码 将 额外 的 交换 用 于 和 切 分 元 素 不 等 的 元 素 。 

2.3.23 Java 的 排序 库 函 数 。 在 练习 2.3.22 的 代码 中 使 用 Tukey's ninther 方法 来 找 出 切 分 元 素 一 一 选择 三 
组 ， 每 组 三 个 元 素 ， 分 别 取 三 组 元 素 的 中 位 数 ， 然 后 取 三 个 中 位 数 的 中 位 数 作为 切 分 元 素 ， 且 
在 排序 小 数组 时 切换 到 插入 排序 。 

2.3.24 取样 排序 。 ( W. Frazer，A. McKellar ) 实现 一 个 快速 排序 ， 取 样 大 小 为 2-1。 首 先 将 取样 得 到 
的 元 素 排 序 ， 然 后 在 递归 函数 中 使 用 样品 的 中 位 数 切 分 。 分 为 两 部 分 的 其 余 样品 元 素 无 需 再 次 
排序 并 可 以 分 别 应 用 于 原 数组 的 两 个 子 数 组 。 这 种 算法 被 称 为 取样 排序 。 306 





图 实验 是 


2.3.25 ”切换 到 插入 排序 。 实 现 一 个 快速 排序 ， 在 子 数组 元 素 少 于 M 时 切换 到 插入 排序 。 用 快速 排序 处 
理 大 小 入 分 别 为 10、10*、10” 和 10 的 随机 数组 ， 根 据 经 验 给 出 使 其 在 你 的 计算 环境 中 运行 速 
度 最 快 的 M 值 。 将 M 从 0 变化 到 30 的 每 个 值 所 得 到 的 平均 运行 时 间 绘 成 曲线 。 注 意 : 你 需要 
为 算法 2.2 添加 一 个 需要 三 个 参数 的 sort () 方法 以 使 Insertion.sort(a，1o，hi) 将 子 数组 
a[1o. .hi] 排序 。 

2.3.26 子 数 组 的 大 小 。 编 写 一 个 程序 ， 在 快速 排序 处 理 大 小 为 NN 的 数组 的 过 程 中 ， 当 子 数组 的 大 小 小 
于 M 时 ， 排 序 方法 需要 切换 为 插入 排序 。 将 子 数组 的 大 小 绘制 成 直方 图 。 用 N=10’，M=10、20 
和 50 测试 你 的 程序 。 

2.3.27 忽略 小 数组 。 用 实验 对 比 以 下 处 理 小 数组 的 方法 和 练习 2.3.25 的 处 理 方法 的 效果 : 在 快速 排序 
中 直接 忽略 小 数组 ， 仅 在 快速 排序 结束 后 运行 一 次 插入 排序 。 注 意 : 可 以 通过 这 些 实验 估计 出 
电脑 的 缓存 大 小 ， 因 为 当 数 组 大 小 超出 缓存 时 这 种 方法 的 性 能 可 能 会 下 降 。 

2.3.28 递归 深度 。 用 经 验 性 的 研究 估计 切换 阔 值 为 M 的 快速 排序 在 将 大 小 为 入 的 不 重复 数组 排序 时 的 
平均 递归 深度 ， 其 中 WE10、20 和 50，N=10;、10*、10 和 105。 

2.3.29 随机 化 。 用 经 验 性 的 研究 对 比 随机 选择 切 分 元 素 和 正文 所 述 的 一 开始 就 将 数组 随机 化 这 两 种 策 
略 的 效果 。 在 子 数 组 大 小 为 M 时 进行 切换 ,将 大 小 为 V 的 不 重复 数组 排序 ， 其 中 M=10、20 和 
50，N=10 、10"、10 和 105。 
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2.3.30 极端 情况 。 用 初始 随机 化 和 非 初 始 随机 化 的 快速 排序 测试 练习 2.1.35 和 练习 2.1.36 中 描述 的 大 
型 非 随机 数组 。 在 将 这 些 大 数组 排序 时 ， 乱 序 对 快速 排序 的 性 能 有 何 影 响 ? 
2.3.31 运行 时 间 直 方 图 。 编 写 一 个 程序 ， 接 受命 令 行 参数 NN 和 了 ， 用 快速 排序 对 大 小 为 入 的 随机 浮 点 
数 数组 进行 了 次 排序 ， 并 将 所 有 运行 时 间 绘 制 成 直方 图 。 令 N=10"、10"、10 和 106， 为 了 使 曲 
307 线 更 平滑 ， 了 值 越 大 越 好 。 这 个 练习 最 关键 的 地 方 在 于 找到 适当 的 比例 绘制 出 实验 结果 。 
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2.4 优先 队列 


许多 应 用 程序 都 需要 处 理 有 序 的 元 素 ， 但 不 一 定 要求 它 们 全 部 有 序 ， 或 是 不 一 定 要 一 次 就 将 它 
们 排序 。 很 多 情况 下 我 们 会 收集 一 些 元 素 ， 处 理 当前 键 值 最 大 的 元 素 ， 然 后 再 收集 更 多 的 元 素 ， 再 
处 理 当前 键 值 最 大 的 元 素 ， 如 此 这 般 。 例 如 ， 你 可 能 有 一 台 能 够 同时 运行 多 个 应 用 程序 的 电脑 (或 
者 手机 ) 。 这 是 通过 为 每 个 应 用 程序 的 事件 分 配 一 个 优先 级 ， 并 总 是 处 理 下 一 个 优先 级 最 高 的 事件 
来 实现 的 。 例 如 ， 绝 大 多 数 手机 分 配给 来 电 的 优先 级 都 会 比 游戏 程序 的 高 。 

在 这 种 情况 下 ， 一 个 合适 的 数据 结构 应 该 支持 两 种 操作 : 删除 最 大 元 素 和 插入 元 素 。 这 种 数据 
类 型 叫做 优先 队列 。 优 先 队 列 的 使 用 和 队列 ( 删除 最 老 的 元 素 ) 以 及 栈 〈 删除 最 新 的 元 素 ) 类 似 ， 
但 高 效 地 实现 它 则 更 有 挑战 性 。 

在 本 节 中 ， 简 单 地 讨论 优先 队列 的 基本 表现 形式 〈 其 一 或 者 两 种 操作 都 能 在 线性 时 间 内 完成 ) 
之 后 ， 我 们 会 学 习 基 于 三 又 堆 数据 结构 的 一 种 优先 队列 的 经 典 实现 方法 ， 用 数组 保存 元 素 并 按照 一 
定 条 件 排序 ， 以 实现 高 效 地 ( 对 数 级 别 的 ) 删除 最 大 元 素 和 插入 元 素 操 作 。 

优先 队列 的 一 些 重 要 的 应 用 场景 包括 模拟 系统 ， 其 中 事件 的 键 即 为 发 生 的 时 间 ， 而 系统 需要 按 
照 时 间 顺 序 处 理 所 有 事件 ; 任务 调度 ， 其 中 键 值 对 应 的 优先 级 决定 了 应 该 首先 执行 哪些 任务 ; 数值 
计算 ， 键 值 代表 计算 错误 ， 而 我 们 需要 按照 键 值 指定 的 顺序 来 修正 它们 。 在 第 6 章 中 我 们 会 学 习 一 
个 具体 的 例子 ， 展 示 优先 队列 在 粒子 碰撞 模拟 中 的 应 用 。 

通过 插入 一 列 元 素 然后 一 个 个 地 删 掉 其 中 最 小 的 元 素 ， 我们 可 以 用 优先 队列 实现 排序 算法 。 一 
种 名 为 堆 排序 的 重要 排序 算法 也 来 自 于 基于 堆 的 优先 队列 的 实现 。 稍 后 在 本 书 中 我 们 会 学 习 如 何 用 
优先 队列 构造 其 他 算法 。 在 第 4 章 中 我 们 会 看 到 优先 队列 如 何 恰到好处 地 抽象 若干 重要 的 图 搜索 算 
法 ; 在 第 5 章 中 ,我 们 将 使 用 本 节 所 示 的 方法 开发 出 一 种 数据 压缩 算法 。 这 些 只 是 优先 队列 作为 算 
法 设计 工具 所 起 到 的 举足轻重 的 作用 的 一 部 分 例子 。 S08 


2.4.1 API 

优先 队列 是 一 种 抽象 数据 类 型 ( 请 见 1.2 节 ) ， 它 表示 了 一 组 值 和 对 这 些 值 的 操作 ， 它 的 抽 
象 层 使 我 们 能 够 方便 地 将 应 用 程序 (用例 ) 和 我 们 将 在 本 节 中 学 习 的 各 种 具体 实现 隔离 开 来 。 和 
1.2 节 一 样 ， 我 们 会 详细 定义 一 组 应 用 程序 编程 接口 (API ) 来 为 数据 结构 的 用 例 提供 足够 的 信息 
(参见 表 2.4.1 ) 。 优 先 队 列 最 重要 的 操作 就 是 删除 最 大 元 素 和 插入 元 素 ， 所 以 我 们 会 把 精力 集中 
在 它们 身上 。 删 除 最 大 元 素 的 方法 名 为 de1Max() ， 插 人 元 素 的 方法 名 为 insert()。 按 照 惯例 ， 
我 们 只 会 通过 辅助 函数 1ess() 来 比较 两 个 元 素 ， 和 排序 算法 一 样 。 如 果 人 允许 重复 元 素 ， 最 大 表示 
的 是 所 有 最 大 元 素 之 一 。 为 了 将 API 定义 完整 ， 我 们 还 需要 加 入 构造 函数 ( 和 我 们 在 栈 以 及 队列 
中 使 用 的 类 似 ) 和 一 个 空 队 列 测 试 方法 。 为 了 保证 灵活 性 ， 我 们 在 实现 中 使 用 了 泛 型 ， 将 实现 了 
Comparable 接口 的 数据 的 类 型 作为 参数 Key。 这 使 得 我 们 可 以 不 必 再 区 别 元 素 和 元 素 的 键 ， 对 数 
据 类 型 和 算法 的 描述 也 将 更 加 清晰 和 简洁 。 例如 , 我 们 将 用 “最 大 元 素 ” 代替“ 最 大 键 值 ”或 是 “ 键 
值 最 大 的 元 素 ”。 

表 2.4.1 泛 型 优先 队列 的 API 


public class MaxPQ<Key extends Comparable<Key>> 


MaxPQC) 创建 一 个 优先 队列 
MaxPQCint max) 创建 一 个 最 大 容量 为 max 的 优先 队列 
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( 续 ) 
public class MaxPQ<Key extends Comparable<Key>> 
MaxPQ(Key[] a) 用 a[] 中 的 元 素 创建 一 个 优先 队列 

void Insert(Key v) 向 优先 队列 中 插入 一 个 元 素 

Key max() 返回 最 大 元 素 

Key delMax() 删除 并 返回 最 大 元 素 

boolean isEmpty() 返回 队列 是 否 为 空 
int size() 返回 优先 队列 中 的 元 素 个 数 


为 了 用 例 代码 的 方便 ，API 包含 的 三 个 构造 函数 使 得 用 例 可 以 构造 指定 大 小 的 优先 队列 (还 可 
以 用 给 定 的 一 个 数组 将 其 初始 化 )。 为 了 使 用 例 代码 更 加 清晰 ， 我 们 会 在 适当 的 地 方 使 用 另 一 个 类 
MinPQ。 它 和 MaxPQ 类似, 只 是 含有 一 个 de1MinQ 方法 来 删除 并 返回 队列 中 键 值 最 小 的 那个 元 素 。 
MaxPQ 的 任意 实现 都 能 很 容易 地 转化 为 MinPQ 的 实现 ， 反 之 亦 然 ， 只 需要 改变 一 下 less() 比较 的 
方向 即 可 。 
优先 队列 的 调用 示例 

为 了 展示 优先 队列 的 抽象 模型 的 价值 ， 考 虑 以 下 问题 : 输入 NW 个 字符 串 ， 每 个 字符 串 都 对 映 
着 一 个 整数 ， 你 的 任务 就 是 从 中 找 出 最 大 的 (或 是 最 小 的 ) M 个 整数 ( 及 其 关联 的 字符 串 ) 。 这 
些 输入 可 能 是 金融 事务 ， 你 需要 从 中 找 出 最 大 的 那些 ; 或 是 农产品 中 的 杀 虫 剂 含量 ， 这 时 你 需要 从 
中 找 出 最 小 的 那些 ; 或 是 服务 请 求 、 科 学 实验 的 结果 ， 或 是 其 他 应 用 。 在 某 些 应 用 场景 中 ， 输 入 量 
可 能 非常 巨大 ， 甚 至 可 以 认为 输入 是 无 限 的 。 解 决 这 个 问题 的 一 种 方法 是 将 输入 排序 然后 从 中 找 
出 M 个 最 大 的 元 素 ， 但 我 们 已 经 说 明 输 入 将 会 非常 庞大 。 另 一 种 方法 是 将 每 个 新 的 输入 和 已 知 的 
M 个 最 大 元 素 比较 ,但 除非 M 较 小 ， 和 否则 这 种 比较 的 代价 会 非常 高 晶 。 只 要 我 们 能 够 高 效 地 实现 
insert() 和 delMin()， 下 面 的 优先 队列 用 例 中 调用 了 MinPQ 的 TopM 就 能 使 用 优先 队列 解决 这 个 
问题 ， 这 就 是 本 节 中 我 们 的 目标 。 在 现代 基础 性 计算 环境 中 超大 的 输入 非常 常见 ， 这 些 实现 使 我 
们 能 够 解决 以 前 缺乏 足够 资源 去 解决 的 问题 ， 如 表 2.4.2 所 示 。 


表 2.4.2 从 NN 个 输入 中 找到 最 大 的 M 个 元 素 所 需 成 本 


示例 增长 的 数量 级 
时 间 空 ” 间 
排序 算法 的 用 例 NlogN N 
调用 初级 实现 的 优先 队列 NM M 
调用 基于 堆 实 现 的 优先 队列 NogM M 
一 个 优先 队列 的 用 例 





public class TopM 
{ 
public static void main(String[] args) 
{ // 打印 输入 流 中 最 大 的 M 行 
int M = Integer.parseInt(args[0]); 
MinPQ<Transaction> pq = new MinPQ<Transaction>(M+1); 
while (StdIn.hasNextLine(O)) 
{ // 为 下 一 行 输入 创建 一 个 元 素 并 放 入 优先 队列 中 
pq.insert(new Transaction(StdIn.readLine())); 
if (pq.size() > M) 
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pq.delMin0) ; // 如 果 优先 队列 中 存在 M+1 个 元 素 则 删除 其 中 最 小 的 元 素 
} // 最 大 的 M 个 元 素 都 在 优先 队列 中 


Stack<Transaction> stack = new Stack<Transaction>(); 
while (!pq.isEmpty()) stack.push(pq.delMin()); 
for (Transaction t : stack) StdOut.print1in(t); 
} 
} 


从 命令 行 输入 一 个 整数 M 以 及 一 系列 字符 串 ， 每 一 行 表示 一 个 事务 。 这 段 代 码 调用 了 MinPQ 并 会 
打印 数字 最 大 的 M 行 。 它 用 到 了 Transaction 类 (请 见 表 1.2.6， 练 习 1.2.19 和 练习 2.1.21 ) ， 构 造 了 
一 个 用 数字 作为 键 的 优先 队列 。 当 优先 队列 的 大 小 超过 M 时 就 删 掉 其 中 最 小 的 元 素 。 所 有 事务 输入 完毕 
之 后 程序 会 从 优先 队列 中 按 递减 顺序 打印 出 最 大 的 M 个 事务 。 这 段 代码 相当 于 将 所 有 事务 放 入 一 个 栈 ， 遍 
历 栈 以 颠倒 它们 的 顺序 并 按照 增 序 将 它们 打印 出 来 。 


% more tinyBatch.txt 

Turing 6/17/1990 “644.08 
vonNeumann 3/26/2002 4121.85 
Dijkstra 8/22/2007 2678.40 
vonNeumann 1/11/1999 4409.74 
Dijkstra 11/18/1995 837.42 


Hoare 5/10/1993 3229.27 

vonNeumann 2/12/1994 4732.35 

Hoare 8/18/1992 4381.21 

Turing 1/11/2002 66.10 

Thompson 2/27/2000 4747.08 

Turing 2/11/1991 2156.86 % java TopM 5 < tinyBatch.txt 
Hoare 8/12/2003 1025.70 Thompson 2/27/2000 4747.08 
vonNeumann 10/13/1993 2520.97 vonNeumann 2/12/1994 4732.35 
Dijkstra 9/10/2000 708.95 vonNeumann 1/11/1999 4409.74 
Turing 10/12/1993 3532.36 Hoare 8/18/1992 4381.21 
Hoare 2/10/2005 4050.20 vonNeumann 3/26/2002 4121.85 


2.4.2 ”初级 实现 

我 们 在 第 1 章 中 讨论 过 的 4 种 基础 数据 结构 是 实现 优先 队列 的 起 点 。 我 们 可 以 使 用 有 序 或 无 序 
的 数组 或 链表 。 在 队列 较 小 时 ， 大 量 使 用 两 种 主要 操作 之 一 时 ,或 是 所 操作 元 素 的 顺序 已 知 时 ， 它 
们 十 分 有 用 。 因 为 这 些 实现 相对 简单 ， 我 们 在 这 里 只 给 出 文字 描述 并 将 实现 代码 作为 练习 (请 见 练 
dds 
2.4.2.1 ”数组 实现 无 序 ) 

或 许 实现 优先 队列 的 最 简单 方法 就 是 基于 2.1 节 中 下 压 栈 的 代码 。insert0 方法 的 代码 和 栈 
的 pushQ 〇 方法 完全 一 样 ,要 实现 删除 最 大 元 素 , 我 们 可 以 添加 一 段 类 似 于 选择 排序 的 内 循环 的 代码 ， 
将 最 大 元 素 和 边界 元 素 交 换 然后 删除 它 ， 和 我 们 对 栈 的 popQ 方法 的 实现 一 样 。 和 栈 类 似 ， 我们 也 
可 以 加 入 调整 数组 大 小 的 代码 来 保证 数据 结构 中 至 少 含 有 四 分 之 一 的 元 素 而 又 永远 不 会 溢出 。 
2.4.2.2 ”数组 实现 〈 有 序 ) 

另 一 种 方法 就 是 在 insert() 方法 中 添加 代码 ， 将 所 有 较 大 的 元 素 向 右边 移动 一 格 以 使 数组 保 
持 有 序 ( 和 插入 排序 一 样 ) 。 这 样 ， 最 大 的 元 素 总 会 在 数组 的 一 边 ， 优 先 队列 的 删除 最 大 元 素 操作 
就 和 栈 的 pop( 操作 一 样 了 。 
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2.4.2.3 ”链表 表示 法 

和 刚才 类 似 ， 我 们 可 以 用 基于 链表 的 下 压 栈 的 代码 作为 基础 ， 而 后 可 以 选择 修改 pop() 来 找到 
并 返回 最 大 元 素 ， 或 是 修改 push() 来 保证 所 有 元 素 为 逆序 并 用 popQ 来 删除 并 返回 链表 的 首 元 素 
(也 就 是 最 大 的 元 素 ) 。 

使 用 无 序 序列 是 解决 这 个 问题 的 惰性 方法 ,我 们 仅 在 必要 的 时 候 才 会 采取 行动 ( 找 出 最 大 元 素 》 
使 用 有 序 序列 则 是 解决 问题 的 积极 方法 ， 因 为 我 们 会 尽 可 能 未 雨 绸 缪 ( 在 插入 元 素 时 就 保持 列表 有 
序 ) ,使 后 续 操 作 更 高 效 。 

实现 栈 或 是 队列 与 实现 优先 队列 的 最 大 不 同 在 于 对 性 能 的 要 求 。 对 于 栈 和 队列 ， 我 们 的 实现 能 
够 在 常数 时 间 内 完成 所 有 操作 ; 而 对 于 优先 队列 ， 我 们 刚刚 讨论 过 的 所 有 初级 实现 中 ， 插 入 元 素 和 
删除 最 大 元 素 这 两 个 操作 之 一 在 最 坏 情况 下 需要 线性 时 间 来 完成 《如 表 2.4.3 所 示 ) 。 我 们 接 下 来 
要 讨论 的 基于 数据 结构 堆 的 实现 能 够 保证 这 两 种 操作 都 能 更 快 地 执行 。 


表 2.4.3 ”优先 队列 的 各 种 实现 在 最 坏 情况 下 运行 时 间 的 增长 数量 级 


数据 结构 插入 元 素 删除 最 大 元 素 
有 序数 组 N 1 

无 序数 组 1 N 

堆 logN logN 
理想 情况 1 1 


在 一 个 优先 队列 上 执行 的 一 系列 操作 如 表 2.4.4 所 示 。 
表 2.4.4 在 一 个 优先 队列 上 执行 的 一 系列 操作 


操作 参数 返回 值 大 小 内 容 〈 无 序 ) 内 容 (有 序 ) 
插入 元 素 P 于 P P 
插入 元 素 Q 2 P Q PP 所 
插入 元 素 E 3 P QE E P Q 
删除 最 大 元 素 Q 2 Pp E E P 
插入 元 素 X 3 P E x E P X 
插入 元 素 A 4 P E X A A E P X 
插入 元 素 M 5 PE X A NM A E M P Xx 
删除 最 大 元 素 X 4 P E MA A E MP 
插入 元 素 P 5 P E M A P AE M P P 
插入 元 素 上 6 PE MA PL A E LMP 
插入 元 素 E 7 | 0 0 萎 “E .I 0 总 全- 俐 
删除 最 大 元 素 P 6 | 0 站 A E E L M 
2.4.3” 堆 的 定义 


数据 结构 二 又 堆 能 够 很 好 地 实现 优先 队列 的 基本 操作 。 在 二 又 堆 的 数组 中 ， 每 个 元 素 都 要 保证 
大 于 等 于 另 两 个 特定 位 置 的 元 素 。 相 应 地 , 这些 位 置 的 元 素 又 至 少 要 大 于 等 于 数组 中 的 男 两 个 元 素 ， 
以 此 类 推 。 如 果 我 们 将 所 有 元 素 画 成 一 棵 二 叉 树 ， 将 每 个 较 大 元 素 和 两 个 较 小 的 元 素 用 边 连接 就 可 
以 很 容易 看 出 这 种 结构 。 


定义 。 当 一 棵 二 又 树 的 每 个 结 点 都 大 于 等 于 它 的 两 个 子 结 点 时 ， 它 被 称 为 堆 有 序 。 
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相应 地 ,在 堆 有 序 的 二 叉 树 中 ,每 个 结 点 都 小 于 等 于 它 的 父 结 点 ( 如 果 有 的 话 )。 从 任意 结 点 向 上 ， 
我 们 都 能 得 到 一 列 非 递减 的 元 素 ; 从 任意 结 点 向 下 ,我 们 都 能 得 到 一 列 非 递增 的 元 素 。 特 别 地 : 


命题 O。 根 结 点 是 堆 有 序 的 二 又 树 中 的 最 大 结 点 。 
证 明 。 根 据 树 的 性 质 归 纳 可 得 。 


二 义 堆 表示 法 

如 果 我 们 用 指针 来 表示 堆 有 序 的 二 叉 树 ， 那 么 每 个 元 
素 都 需要 三 个 指针 来 找到 它 的 上 下 结 点 ( 父 结 点 和 两 个 子 
结 点 各 需要 一 个 ) 。 但 如 图 2.4.1 所 示 ， 如 果 我 们 使 用 完 
全 二 又 树 ， 表 达 就 会 变 得 特别 方便 。 要 画 出 这 样 一 棵 完全 
二 叉 树 ， 可 以 先 定 下 根 结 点 ， 然 后 一 层 一 层 地 由 上 向 下 、 
从 左 至 右 ， 在 每 个 结 点 的 下 方 连接 两 个 更 小 的 结 点 ， 直 至 
将 个 结 点 全 部 连接 完毕 。 完 全 二 叉 树 只 用 数组 而 不 需 
要 指针 就 可 以 表示 。 具 体 方法 就 是 将 二 又 树 的 结 点 按照 层级 顺序 放 入 数组 中 ， 根 结 点 在 位 置 1， 它 
的 子 结 点 在 位 置 2 和 3， 而 子 结 点 的 子 结 点 则 分 别 在 位 置 4、5、6 和 7， 以 此 类 推 。 313 





图 2.4.1 一 棵 堆 有 序 的 完全 二 又 树 


定义 。 二 又 堆 是 一 组 能 够 用 堆 有 序 的 完全 二 又 树 排序 的 元 素 ， 并 在 数组 中 按照 层级 储存 〈 不 使 
用 数组 的 第 一 个 位 置 ) 。 ; 


(简单 起 见 ， 在 下 文中 我 们 将 二 又 堆 简 称 为 堆 ) 在 一 个 堆 中 ,位 置 上 的 结 点 的 父 结 点 的 位 置 为 
LK2]， 而 它 的 两 个 子 结 点 的 位 置 则 分 别 为 2k 和 2k+1。 这 样 在 不 使 用 指针 的 情况 下 (我 们 在 第 3 章 
中 讨论 二 又 树 时 会 用 到 它们 ) 我 们 也 可 以 通过 计算 数组 的 索引 在 树 中 上 下 移动 : 从 a[k] 向 上 一 层 
就 令 k 等 于 k/2， 向 下 一 层 则 令 k 等 于 2k 或 2k+1。 

用 数组 ( 堆 ) 实现 的 完全 二 又 树 的 结构 是 很 严格 的 ， 但 它 的 灵活 性 已 经 足以 让 我 们 高 效 地 实现 优 
先 队 列 。 用 它们 我 们 将 能 实现 对 数 级 别 的 插入 
元 素 和 删除 最 大 元 素 的 操作 。 利 用 在 数组 中 无 a[i] 
需 指针 即 可 沿 树 上 下 移动 的 便利 和 以 下 性 质 ， 
算法 保证 了 对 数 复杂 度 的 性 能 。 


mo 
HD 
[ 


而 了 0 11 
N 0 A 及 ‘@ 


命题 P。 一 棵 大 小 为 W 的 完全 二 又 树 的 
高 度 为 |lgV|。 


证 明 。 通 过 归纳 很 容易 可 以 证 明 这 一 点 ， 
且 当 六 达到 2 的 惫 时 树 的 高 度 会 加 1。 


堆 的 表示 如 图 2.4.2 所 示 。 


2.4.4” 堆 的 算法 
我 们 用 长 度 为 N+1 的 私有 数组 pq[] 来 图 2.4.2 ” 堆 的 表示 
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表示 一 个 大 小 为 N 的 堆 ， 我 们 不 会 


private boolean less(int i, int j) 


使 用 pq[0] ， 堆 元 素 放 在 pq[1] 至 { return pq[i].compareTo(pq[j]) < 0; } 
pq[N] 中 。 在 排序 算法 中 ， 我 们 只 通 private void exchCint i, int j) 
过 私有 辅助 函数 less() 和 exch() 来 { Key t= pq[i]; pq[i] = pq[j]; pq[j] = t; } 


访问 元 素 ， 但 因为 所 有 的 元 素 都 在 数 
组 pq[] 中 ， 我 们 在 2.4.4.2 节 中 会 使 
用 更 加 紧凑 的 实现 方式 ， 不 再 将 数组 作为 参数 传递 。 堆 的 操作 会 首先 进行 一 些 简单 的 改动 ， 打 破 堆 
的 状态 , 然后 再 遍历 堆 并 按照 要 求 将 堆 的 状态 恢复 。 我们 称 这 个 过 程 叫做 扒 的 有 序 化 (reheapifying )。 

堆 实 现 的 比较 和 交换 方法 如 右上 方 的 代码 框 所 示 。 

在 有 序 化 的 过 程 中 我 们 会 遇 到 两 种 情况 。 当 某 个 结 点 的 优先 级 上 升 〈 或 是 在 堆 底 加 入 一 个 新 的 
元 素 ) 时 ， 我 们 需要 由 下 至 上 恢复 堆 的 顺序 。 当 某 个 结 点 的 优先 级 下 降 〈 例 如 ， 将 根 结 点 替换 为 一 
个 较 小 的 元 素 ) 时 , 我们 需要 由 上 至 下 恢复 堆 的 顺序 。 首 先 ， 我 们 会 学 习 如 何 实现 这 两 种 辅助 操作 ， 
然后 再 用 它们 实现 插入 元 素 和 删除 最 大 元 素 的 操作 。 
2.4.4.1 ”由 下 至 上 的 堆 有 序 化 “上浮 ) 

如 果 堆 的 有 序 状态 因为 某 个 结 点 变 得 比 它 的 父 结 IVEE vo eine 记 
点 更 大 而 被 打破 ， 那 么 我 们 就 需要 通过 交换 它 和 它 的 


堆 实现 的 比较 和 交换 方法 


while (k > 1 && less(k/2, k)) 


父 结 点 来 修复 堆 。 交 换 后 ， 这 个 结 点 比 它 的 两 个 子 结 
点 都 大 ( 一 个 是 曾经 的 父 结 点 ， 另 一 个 比 它 更 小 ， 因 exchCk/2, k); 
为 它 是 曾经 父 结 点 的 子 结 点 ) ， 但 这 个 结 点 仍然 可 能 ee 


比 它 现在 的 父 结 点 更 大 。 我 们 可 以 一 遍 遍 地 用 同样 的 “} 
办 法 恢复 秩序 ， 将 这 个 结 点 不 断 向 上 移动 直到 我 们 遇 
到 了 一 个 更 大 的 父 结 点 。 只 要 记 住 位 置 的 结 点 的 父 由 下 至 上 的 惟有 序 化 (上浮 ) 的 实现 

结 点 的 位 置 是 LW2]， 这 个 过 程 实现 起 来 很 简单 。swim0 方法 中 的 循环 可 以 保证 只 有 位 置 大 上 的 结 
点 大 于 它 的 父 结 点 时 堆 的 有 序 状态 才 会 被 打破 。 因 此 只 要 该 结 点 不 再 大 于 它 的 父 结 点 ， 堆 的 有 序 状 
态 就 恢复 了 。 至 于 方法 名 ， 当 一 个 结 点 太 大 的 时 候 它 需 要 浮 (swim ) 到 堆 的 更 高 层 。 由 下 至 上 的 堆 
有 序 化 的 实现 代码 如 右上 方 所 示 。 

图 2.4.3 展示 的 是 由 下 至 上 的 堆 有 序 化 示意 图 。 
2.4.4.2 由 上 至 下 的 堆 有 序 化 《下 沉 ) 

如 果 堆 的 有 序 状态 因为 某 个 结 点 变 得 比 它 的 两 个 子 结 点 或 是 其 中 之 一 更 小 了 而 被 打破 了 ， 那 么 
我 们 可 以 通过 将 它 和 它 的 两 个 子 结 点 中 的 较 大 者 交换 来 恢复 堆 。 交 换 可 能 会 在 子 结 点 处 继续 打破 堆 
的 有 序 状态 ， 因 此 我 们 需要 不 断 地 用 相同 的 方式 将 其 修复 ,将 结 点 向 下 移动 直到 它 的 子 结 点 都 比 它 
更 小 或 是 到 达 了 堆 的 底部 。 由 位 置 为 的 结 点 的 子 结 点 位 于 2k 和 2k+1 可 以 直接 得 到 对 应 的 代码 。 
至 于 方法 名 ， 由 上 至 下 的 堆 有 序 化 的 示意 图 及 实现 代码 分 别 见 图 2.4.4 和 下 页 的 代码 框 。 当 一 个 结 
点 太 小 的 时 候 它 需要 沉 ( sink ) 到 堆 的 更 低层 。 

如 果 我 们 把 堆 想象 成 一 个 严密 的 黑社会 组 织 ， 每 个 子 结 点 都 表示 一 个 下 属 ( 父 结 点 则 表示 它 的 
直接 上 级 ) ， 那么 这 些 操作 就 可 以 得 到 很 有 趣 的 解释 。swim() 表示 一 个 很 有 能 力 的 新 人 加 入 组 织 
并 被 逐 级 提升 (将 能 力 不 够 的 上 级 踩 在 脚下 ) ， 直 到 他 过 到 了 一 个 更 强 的 领导 。sinkQ 则 类 似 于 
整个 社团 的 领导 退休 并 被 外 来 者 取代 之 后 ， 如 果 他 的 下 属 比 他 更 厉害 ， 他 们 的 角色 就 会 交换 ， 这 种 
交换 会 持续 下 去 直到 他 的 能 力 比 其 下 属 都 强 为 止 。 这 些 理想 化 的 情景 在 现实 生活 中 可 能 很 罕见 ， 但 
它们 能 够 帮助 你 理解 堆 的 这 些 基 本 行为 。 
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sink() 和 swim() 方法 是 高 效 实现 优先 队列 API 的 基础 ， 原 因 如 下 (具体 的 实现 请 见 算法 2.6 ) 。 






5 
i ee 非 有 序 状 态 ( 子 结 点 


的 键 值 大 于 父 结 点 ) 


图 2.4.3 由 下 至 上 的 堆 有 序 化 (上浮 ) 


插入 元 素 。 我 们 将 新 元 素 加 到 数组 末尾 ， 
增加 堆 的 大 小 并 让 这 个 新 元 素 上 浮 到 合适 的 位 
置 (如 图 2.4.5 左 半 部 分 所 示 ) 。 

删除 最 大 元 素 。 我 们 从 数组 顶端 删 去 最 大 
的 元 素 并 将 数组 的 最 后 一 个 元 素 放 到 顶端 ， 减 
小 堆 的 大 小 并 让 这 个 元 素 下 沉 到 合适 的 位 置 (如 
图 2.4.5 右 半 部 分 所 示 ) 。 

算法 2.6 解决 了 我 们 在 本 节 开 始 时 提出 的 一 
个 基本 问题 : 它 对 优先 队列 API 的 实现 能 够 保 
证 插入 元 素 和 删除 最 大 元 素 这 两 个 操作 的 用 时 
和 队列 的 大 小 仅 成 对 数 关系 。 





-< 添加 元 素 打 破 
了 堆 的 有 序 性 





图 2.4.5 
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private void sink(Cint k) 


while (2*k <= N) 
{ 
int $2*k; 
if (j < N && less(j, j+1)) j++; 
if (!less(k, j)) break; 
exch(k, j); 
k=j; 


由 上 至 下 的 堆 有 序 化 (下 沉 ) 的 实现 


删除 最 大 元 素 (T) -一 待 删除 元 素 
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算法 2.6 ”基于 堆 的 优先 队列 


public class MaxPQ<Key extends Comparable<Key>> 
{ 
private Key[] pq; // 基于 堆 的 完全 按 二 又 树 
private int N = 0; // 存储 于 pq[1..N] 中 ，pq[0] 没 有 使 用 


public MaxPQCint maxN) 
{ pq = (Key[]) new Comparable[maxN+1]; } 


public boolean isEmpty() 
{ return N == 0; } 


public int size() 
{ return N; } 


public void insert(Key v) 


{ 
pq[++N] = Vi 
swim(N); 

} 

public Key delMax() 

{ 
Key max = pq[1]; // 从 根 结 点 得 到 最 大 元 素 
exch(1, N--); // 将 其 和 最 后 一 个 结 点 交换 
pq[N+1] = null; // 防止 越界 
sink(1); // 恢复 堆 的 有 序 性 
return max; 

} 


// 辅助 方法 的 实现 请 见 本 节 前 面 的 代码 框 
private boolean less(int i, int j) 
private void exch(int i, int j) 
private void swim(int k) 
private void sink(Cint k) 
中 
优先 队列 由 一 个 基于 堆 的 完全 二 了 义 树 表示 ， 存 储 于 数组 pq[1..N] 中 ,pq[0] 没有 使 用 。 在 
insert() 中 , 我 们 将 N 加 一 并 把 新 元 素 添 加 在 数组 最 后 , 然后 用 swim() 恢复 堆 的 秩序 。 在 del1MaxQ 中 ， 
我 们 从 pq[1] 中 得 到 需要 返回 的 元 素 , 然后 将 pq[N] 移动 到 pq[1], 将 N 减 一 并 用 sinkQ 恢复 堆 的 秩序 。 
同时 我 们 还 将 不 青 使 用 的 pq[N+1] 设 为 nu11, 以 便 系统 回收 它 所 占用 的 空间 。 和 以 前 一 样 (请 见 1.3 节 )， 
这 里 省 略 了 动态 调整 数组 大 小 的 代码 。 其 他 的 构造 函数 请 见 练习 2.4.19。 


命题 Q。 对 于 一 个 含有 NN 个 元 素 的 基于 堆 的 优先 队列 ,插入 元 素 操作 只 需 不 超过 ( lgN+1 ) 次 比较 ， 
删除 最 大 元 素 的 操作 需要 不 超过 21gN 次 比较 。 


证 明 。 由 命题 P 可知， 两 种 操作 都 需要 在 根 结 点 和 堆 底 之 间 移 动 元 素 ， 而 路 径 的 长 度 不 超过 
lgN。 对 于 路 径 上 的 每 个 结 点 ， 删 除 最 大 元 素 需要 两 次 比较 〔 除 了 堆 底 元 素 ) ， 一 次 用 来 找 出 较 
大 的 子 结 点 ， 一 次 用 来 确定 该 子 结 皮 是 否 需要 上 浮 。 


对 于 需要 大 量 混 杂 的 插入 和 删除 最 大 元 素 操作 的 典型 应 用 来 说 ， 命 题 Q 意味 着 一 个 重要 的 性 能 
突破 ， 总 结 请 见 表 2.4.3。 使 用 有 序 或 是 无 序数 组 的 优先 队列 的 初级 实现 总 是 需要 线性 时 间 来 完成 其 


中 一 种 操作 ， 但 基于 堆 的 实现 则 能 够 保证 在 对 数 时 间 内 
完成 它们 。 这 种 差别 使 得 我 们 能 够 解决 以 前 无 法 解决 的 
问题 。 
2.4.4.3 ”多 又 堆 

基于 用 数组 表示 的 完全 三 又 树 构造 堆 并 修改 相应 的 
代码 并 不 困难 。 对 于 数组 中 1 至 N 的 N 个 元 素 ， 位 置 人 
的 结 点 大 于 等 于 位 于 3k-1、3k 和 3k+1l 的 结 点 ， 小 于 等 
于 位 于 L(k+1)/3」 的 结 点 。 其 至 对 于 给 定 的 4， 将 其 修改 
为 任意 的 d 义 树 也 并 不 困难 。 我 们 需要 在 树 高 ( logjN ) 
和 在 每 个 结 点 的 4 个 子 结 点 找到 最 大 者 的 代价 之 间 找 到 
折 中 ， 这 取决 于 实现 的 细节 以 及 不 同 操作 的 预期 相对 频 
繁 程度 。 

堆 上 的 优先 队列 操作 如 图 2.4.6 所 示 。 
2.4.4.4 ”调整 数组 大 小 

我 们 可 以 添加 一 个 没有 参数 的 构造 函数 ， 在 
insert() 中 添加 将 数组 长 度 加 们 的 代码 ， 在 delMax QO 
中 添加 将 数组 长 度 减 半 的 代码 , 就 像 在 1.3 节 中 的 栈 那样 。 
这 样 ， 算 法 的 用 例 就 无 需 关注 各 种 队列 大 小 的 限制 。 当 
优先 队列 的 数组 大 小 可 以 调整 、 队 列 长 度 可 以 是 任意 值 
时 ， 命 题 Q 指出 的 对 数 时 间 复 杂 度 上 限 就 只 是 针对 一 般 
性 的 队列 长 度 N 而 言 7 了 (请 见 练习 2.4.22 ) 。 
2.4.4.5 “元 素 的 不 可 变性 

优先 队列 存储 了 用 例 创 建 的 对 象 ， 但 同时 假设 用 例 
代码 不 会 改变 它们 (改变 它们 就 可 能 打破 堆 的 有 序 性 ) 。 
我 们 可 以 将 这 个 假设 转化 为 强制 条 件 ， 但 程序 员 通 常 不 
会 这 么 做 ， 因 为 增加 代码 的 复杂 性 会 降低 性 能 。 
2.4.4.6 ”索引 优先 队列 

在 很 多 应 用 中 ， 人 允许 用 例 引 用 已 经 进入 优先 队列 中 
的 元 素 是 有 必要 的 。 做 到 这 一 点 的 一 种 简单 方法 是 给 每 
个 元 素 一 个 索引 。 另 外 ， 一 种 常见 的 情况 是 用 例 已 经 有 
了 总 量 为 入 的 多 个 元 素 ， 而 且 可 能 还 同时 使 用 了 多 个 
(平行 ) 数组 来 存储 这 些 元 素 的 信息 。 此 时 ， 其 他 无 关 
的 用 例 代 码 可 能 已 经 在 使 用 一 个 整数 索引 来 引用 这 些 元 
素 了 。 这 些 考虑 引导 我 们 设计 了 表 2.4.5 中 的 API。 
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插入 元 素 P (Pp) 
插入 元 素 Q 
(P) 
插入 元 素 上 
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a 
时 


& 
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插入 元 素 上 (Pi CD) 
CQ 和 ORG 
®) 
插入 元 素 上 E (PB) 作 
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出 除 最 大 元 素 (P) (8) 部 
人 国 


图 2.4.6 在 堆 上 的 优先 队列 操作 


表 2.4.5 关联 索引 的 泛 型 优先 队列 的 API 


public class IndexMinPQ<Item extends Comparable<Item>> 


IndexMinPQ(Cint maxN) 


创建 一 个 最 大 容量 为 maxN 的 优先 队列 ， 索 引 的 取 值 范 用 
为 0 至 maxN-1 


void insert(int k, Item item) 插入 一 个 元 素 ， 将 它 和 索引 k 相关 联 
void change(int k， Item item) 将 索引 为 k 的 元 素 设 为 item 
boolean contains(int k) 是 否 存 在 索引 为 k 的 元 素 
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( 续 ) 
public class IndexMinPQ<Item extends Comparable<Item>> 
void delete(int k) 删 去 索引 k 及 其 相关 联 的 元 素 
Item min() 返回 最 小 元 素 
int minIndex() 返回 最 小 元 素 的 索引 
int delMin() 删除 最 小 元 素 并 返回 它 的 索引 
boolean isEmpty() 优先 队列 是 否 为 空 
int size() 优先 队列 中 的 元 素数 量 


理解 这 种 数据 结构 的 一 个 较 好 方法 是 将 它 看 成 一 个 能 够 快速 访问 其 中 最 小 元 素 的 数组 。 事 实 上 
它 还 要 更 好 一 一 它 能 够 快速 访问 数组 的 一 个 特定 子 集 中 的 最 小 元 素 ( 指 所 有 被 插入 的 元 素 ) 。 换 句 
话说 ， 可 以 将 名 为 pq 的 IndexMinPQ 类 优先 队列 看 做 数组 pq[0. .N-1] 中 的 一 部 分 元 素 的 代表 。 将 
pq.insert(Ck， item) 看 做 将 k 加 入 这 个 子 集 并 使 pq[k] = item，pq.change(Ck，item) 则 代表 令 
pq[k]=item。 这 两 种 操作 没有 改变 其 他 操作 所 依赖 的 数据 结构 ， 其 中 最 重要 的 就 是 delMinGO (删除 
最 小 元 素 并 返回 它 的 索引 ) 和 changeG) (改变 数据 结构 中 的 某 个 元 素 的 索引 一 一 即 pq[i]=item ) 。 
这 些 操作 在 许多 应 用 中 都 很 重要 并 且 依 赖 于 对 元 素 的 引用 ( 索引) 。 练 习 2.4.33 说 明了 如 何 用 较 少 的 
代码 将 算法 2.6 扩 展 为 极 高 效 的 索引 优先 队列 ,一 般 来 说 , 当 堆 发 生变 化 时 ,我 们 会 用 下 沉 (元素 减 小 时 ) 
或 上 浮 (元 素 变 大 时 ) 操作 来 恢复 堆 的 有 序 性 。 在 这 些 操 作 中 ， 我 们 可 以 用 索引 查找 元 素 。 能 够 定位 
堆 中 的 任意 元 素 也 使 我 们 能 够 在 API 中 加 入 一 个 deleteQ 操作 。 





命题 Q( 续 ) 。 在 一 个 大 小 为 和 的 索引 优先 队列 中 , 插入 元 素 (insert ) 、 改 变 优 先 级 (change ) 、 
删除 (delete ) 和 删除 最 小 元 素 (remove the minimum ) 操作 所 需 的 比较 次 数 和 logN 成 正比 (如 
表 2.4.6 所 示 ) 。 


证 明 。 已 知 堆 中 所 有 路 径 最 长 即 为 ~lgN， 从 代码 中 很 容易 得 到 这 个 结论 。 


表 2.4.6 含有 个 元 素 的 基于 堆 的 索引 优先 队列 所 有 操作 在 最 坏 情况 下 的 成 本 


操 作 比较 次 数 的 增长 数量 级 

insert() logN 

change() logN 

contains() 1 

delete() logN 

min() 1 

minIndex() 1 

de1Min() logN 

这 有 段 讨论 针对 的 是 找 出 最 小 元 素 的 队列 ; 和 以 前 一 样 ， 我 们 也 在 本 书 网 站 上 实现 了 一 个 找 出 最 
大 元 素 的 版 本 IndexMaxPQ。 


2.4.4.7 索引 优先 队列 用 例 

下 面 的 用 例 调用 了 IndexMinPQ 的 代码 Mu1tiway 解决 了 多 向 归并 问题 : 它 将 多 个 有 序 的 输入 
流 归 并 成 一 个 有 序 的 输出 流 。 许 多 应 用 中 都 会 遇 到 这 个 问题 。 输 入 可 能 来 自 于 多 种 科学 仪器 的 输出 
( 按时 间 排 序 ) ， 或 是 来 自 多 个 音乐 或 电影 网 站 的 信息 列表 ( 按 名 称 或 艺术 家 名 字 排 序 ) ， 或 是 商 
业 交 易 〈 按 账号 或 时 间 排 序 ) ， 或 者 其 他 。 如 果 有 足够 的 空间 ， 你 可 以 把 它们 简单 地 读 入 一 个 数组 
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并 排序 ， 但 如 果 用 了 优先 队列 ， 无 论 输 入 有 多 长 你 都 可 以 把 它们 全 部 读 和 人 并 排序 。 
使 用 优先 队列 的 多 向 归并 


public class Multiway 





public static void merge(In[] streams) 
int N = streams.length; 
IndexMinPQ<String> pq = new IndexMinPQ<String>(N); 
for (int 1 = 0; i < N; i++) 
if (!streams[i].isEmptyO) 
pq.insert(i, streams[i].readString()); 
while (!pq.isEmpty(O)) 
{ 
StdOut.printlin(pq.min()); 
int 1 = pq.delMin(); 
if (!streams[i].isEmpty()) 
pq.insert(i, streams[i].readString()); 
} 
public static void main(String[] args) 
int N = args.length; 
In[] streams = new In[N]; 
for (int 1 = 0; i1 < Ni i++) 
streams[i] = new In(args[i]); 
merge(streams); 


} 

这 段 代码 调用 了 IndexMinPQ 来 将 作为 命令 行 参数 输入 的 多 行 有 序 字符 串 归 并 为 一 行 有 序 的 输出 (请 
见 正文 )。 每 个 输入 流 的 索引 都 关联 着 一 个 元 素 ( 输入 中 的 下 个 字符 串 )。 初始 化 之 后 , 代码 进入 一 个 循环 ， 
删除 并 打印 出 队列 中 最 小 的 字符 串 ， 然 后 将 该 输入 的 下 一 个 字符 串 添 加 为 一 个 元 素 。 为 了 节约 ， 下 面 将 
所 有 的 输出 排 在 了 一 行 一 一 实际 输出 应 该 是 一 个 字符 串 一 行 。 


% more ml.txt 
人 BC 有 .1G 了 证 记 
% more m2.txt 








BDHPQQ 

% more m3.txt % java Multiway ml.txt m2.txt m3.txt 

ABEFJN 内 BB CD ER 这 
2.4.5 ” 堆 排序 


我 们 可 以 把 任意 优先 队列 变 成 一 种 排序 方法 。 将 所 有 元 素 插 入 一 个 查找 最 小 元 素 的 优先 队列 ， 
然后 再 重复 调用 删除 最 小 元 素 的 操作 来 将 它们 按 顺序 删 去 。 用 无 序数 组 实现 的 优先 队列 这 么 做 相当 
于 进行 一 次 插入 排序 。 用 基于 堆 的 优先 队列 这 样 做 等 同 于 哪 种 排序 ”一 种 全 新 的 排序 方法 ! 下 面 我 
们 就 用 堆 来 实现 一 种 经 典 而 优雅 的 排序 算法 一 一 堆 排序 。 

堆 排序 可 以 分 为 两 个 阶段 。 在 堆 的 构造 阶段 中 ,我 们 将 原始 数组 重新 组 织 安排 进 一 个 堆 中 ; 然 
后 在 下 沉 排 序 阶段 ， 我 们 从 堆 中 按 递减 顺序 取出 所 有 元 素 并 得 到 排序 结果 。 为 了 和 我 们 已 经 学 习 过 
的 代码 保持 一 致 ,我 们 将 使 用 一 个 面向 最 大 元 素 的 优先 队列 并 重复 删除 最 大 元 素 。 为 了 排序 的 需要 ， 
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我 们 不 再 将 优先 队列 的 具体 表示 隐藏 ， 并 将 直接 使 用 swim() 和 sinkQ 操作 。 这 样 我 们 在 排序 时 
就 可 以 将 需要 排序 的 数组 本 身 作为 堆 ， 因 此 无 需 任 何 额 外 空间 。 
2.4.5.1 ” 堆 的 构造 

由 个 给 定 的 元 素 构 造 一 个 堆 有 多 难 ? 我 们 当然 可 以 在 与 NogN 成 正比 的 时 间 内 完成 这 项 任 
务 ， 只 需 从 左 至 右 遍 历数 组 ， 用 swim() 保证 扫描 指针 左 侧 的 所 有 元 素 已 经 是 一 棵 堆 有 序 的 完全 树 
即 可 ， 就 像 连 续 向 优先 队列 中 插 和 人 元 素 一 样 。 一 个 更 聪明 更 高 效 的 办 法 是 从 右 至 左 用 sinkQ) 函数 
构造 子 堆 。 数 组 的 每 个 位 置 都 已 经 是 一 个 子 堆 的 根 结 点 了 ，sinkG) 对 于 这 些 子 堆 也 适用 。 如 果 一 
个 结 点 的 两 个 子 结 点 都 已 经 是 堆 了 ， 那 么 在 该 结 点 上 调用 sinkQ 可 以 将 它们 变 成 一 个 堆 。 这 个 过 
程 会 递归 地 建立 起 堆 的 秩序 。 开 始 时 我 们 只 需要 扫描 数组 中 的 一 半 元 素 ， 因 为 我 们 可 以 跳 过 大 小 为 
1 的 子 堆 。 最 后 我 们 在 位 置 1 上 调用 sinkQ 方法 ,扫描 结束 。 在 排序 的 第 一 阶段 ， 堆 的 构造 方法 
和 我 们 的 想象 有 所 不 同 , 因为 我 们 的 目标 是 构造 一 个 堆 有 序 的 数组 并 使 最 大 元 素 位 于 数组 的 开头 (次 
大 的 元 素 在 附近 ) 而 非 构造 函数 结束 的 末尾 。 


命题 R。 用 下 沉 操 作 由 入 个 元 素 构 造 堆 只 需 少 于 2N 次 比较 以 及 少 于 入 次 交换 。 


证 明 。 观 察 可 知 ， 构 造 过 程 中 处 理 的 堆 都 较 小 。 例 如 ， 要 构造 一 个 127 个 元 素 的 扒 ， 我 们 会 处 
理 32 个 大 小 为 3 的 堆 ，16 个 大 小 为 7 的 扒 ，8 个 大 小 为 15 的 堆 ，4 个 大 小 为 31 的 推 ，2 个 大 
小 为 63 的 堆积 1 个 大 小 为 127 的 堆 ， 因 此 〈 最 坏 情况 下 ) 需要 32x1+16x2+8x3+4x4 上 + 
2x5+1x6=120 次 交换 (两 倍 于 比较 ) 。 完 整 证 明 请 见 练习 2.4.20。 


堆 排 序 的 实现 过 程 如 算法 2.7 所 示 。 
算法 2.7 ” 堆 排 序 





public static void a[i] 
sort(Comparable[] a) N k 01234 567 8 91011 
EE i 初始 值 SORT EX AM PL 
for cine ke = NA Rk Se Ls > : .| 上 se E 
sinkCa, k, N); 11 3 x R A 
on CN > 了 和 还 ， 过 T Ba M 0 
ye x T S RA 
eo 1 ed 堆 有 序 4 
} 10 1 TP SDo M E x 
} | S PR E A T 
这 段 代 码 用 sinkQ 〇 方法 将 a[1] 到 8 1 R P E E A 村 SS 
a[N] 的 元 素 排序 (sink() 被 修改 过 ， 以 Tp P.O Ey ME R 
a[] 和 NN 作为 参数 ) 。for 循环 构造 了 堆 ， ne 人 
然后 while 循环 将 最 大 的 元 素 a[1] 和 站 1 
a[N] 交换 并 修复 了 堆 ， 如 此 重复 直到 堆 变 3 1 E A EL 
空 。 将 exchQ 和 less0) 的 实现 中 的 索 > E 诛 ， 省 
引 减 一 即 可 得 到 和 其 他 排序 算法 一 致 的 实 | A E 
现 (将 a[0] 至 a[N-1] 排序 ) 。 堆 排序 排序 结果 A E E LMO0O PRS TX 


流程 示意 图 显示 在 图 2.4.7 中 。 
具体 流程 示意 图 显示 在 图 2.4.7 中 。 堆 排序 的 轨迹 每 次 下 沉 后 的 数组 内 容 ) 
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图 2.4.7 堆 排 序 : 堆 的 构造 ( 左 ) 和 下 沉 排序 ( 右 ) 325 


2.4.5.2 下 沉 排序 


堆 排 序 的 主要 工作 都 是 在 第 二 阶段 完成 的 。 这 里 我 们 将 堆 中 的 最 大 元 素 删 除 ， 然 后 放 入 堆 缩 小 
后 数组 中 空 出 的 位 置 。 这 个 过 程 和 选择 排序 有 些 类 似 ( 按照 降序 而 非 升序 取出 所 有 元 素 ) ， 但 所 需 
的 比较 要 少 得 多 ， 因 为 堆 提 供 了 一 种 从 未 排序 部 分 找到 最 大 元 素 的 有 效 方 法 。 
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命题 S。 将 N 个 元 素 排序 堆 排序 只 需 少 于 ( 2NlgN 给 入 一 ,hn 
+2N) 次 比较 ( 以 及 一 半 次 数 的 交换 ) 。 
证 明 。2N 项 来 自 于 堆 的 构造 ( 见 命题 R) 。 上 
2NlgN 项 来 自 于 每 次 下 沉 操作 最 大 可 能 需要 2leN | 1 | 
次 比较 ( 见 命题 P 与 命题 Q ) 。 中 Ti 
堆 有 序 一 

算法 2.7 完整 地 实现 了 这 些 思想 ， 也 就 是 经 典 的 红色 的 条 目 
堆 排 序 算法 , 它 的 发 明 人 是 J.W.J. Williams ,并 由 及 . W. 是 下 沉 的 元 素 
Floyd 在 1964 年 改进 。 尽 管 这 段 程序 中 循环 的 任务 各 中 1 
不 同 (第 一 段 循环 构造 堆 ， 第 二 段 循环 在 下 沉 排序 中 
销毁 堆 ) ， 它 们 都 是 基于 sink0 方法 。 我 们 将 该 实 中 1 1 四 | 
现 和 优先 队列 的 API 独立 开 来 是 为 了 突出 这 个 排序 算 aas 
法 的 简洁 性 (sortQ 方法 只 需 8 行 代码 ，sinkC) 函 Ia 
数 8 行 ) ， 并 使 其 可 以 嵌入 其 他 代码 之 中 。 Ta 

和 以 前 一 样 , 通过 研究 可 视 轨迹 ( 如 图 2.4.8 所 示 ) | 1 灰色 的 元 
我 们 可 以 深入 了 解 算法 的 操作 。 一 开始 算法 的 行为 似 素 不 会 移动 
乎 杂乱 无 章 ， 因 为 随 着 堆 的 构建 较 大 的 元 素 都 被 移动 Mil 
到 了 数组 的 开头 ， 但 接 下 来 算法 的 行为 看 起 来 就 和 选 I 
择 排序 一 模 一 样 了 (除了 它 比较 的 次 数 少 得 多 ) 。 In el 

和 我 们 学 过 的 其 他 算法 一 样 ， 很 多 人 都 研究 过 许 
多 改进 基于 堆 的 优先 队列 的 实现 和 堆 排 序 的 方法 。 我 Dd 
们 这 里 简要 地 看 看 其 中 之 一 。 黑色 的 元 素 


bd 
2.4.5.3” 先 下 沉 后 上 浮 正在 进行 交换 


大 多 数 在 下 沉 排序 期 间 重 新 插入 堆 的 元 素 会 被 直 
接 加 入 到 堆 底 。Floyd 在 1964 年 观察 发 现 ， 我 们 正 
好 可 以 通过 免 去 检查 元 素 是 否 到 达 正 确 位 置 来 节省 时 
间 。 在 下 沉 中 总 是 直接 提升 较 大 的 子 结 点 直至 到 达 堆 
底 ， 然 后 再 使 元 素 上 浮 到 正确 的 位 置 。 这 个 想法 几乎 
可 以 将 比较 次 数 减 少 一 半 一 一 接近 了 归并 排序 所 需 的 
比较 次 数 ( 随机 数组 ) 。 这 种 方法 需要 额外 的 空间 ， 
因此 在 实际 应 用 中 只 有 当 比 较 操作 代价 较 高 时 才 有 用 Se 
(例如 ， 当 我 们 在 将 字符 串 或 者 其 他 键 值 较 长 类 型 的 结果 一 -aa 
元 素 进行 排序 时 ) 。 

堆 排序 在 排序 复杂 性 的 研究 中 有 着 重要 的 地 位 ， 图 248 堆 排 序 的 可 视 轨迹 〈 另 见 彩 插 ) 
因为 它 是 我 们 所 知 的 唯一 能 够 同时 最 优 地 利用 空间 和 时 间 的 方法 一 在 最 坏 的 情况 下 它 也 能 保证 使 
用 ~ 2MgN 次 比较 和 恒定 的 额外 空间 。 当 空间 十 分 紧张 的 时 候 ( 例如 在 嵌入 式 系统 或 低 成 本 的 移动 设 
备 中 ) 它 很 流行 ， 因 为 它 只 用 几 行 就 能 实现 ( 甚至 机 器 码 也 是 ) 较 好 的 性 能 。 但 现代 系统 的 许多 应 用 
很 少 使 用 它 ， 因 为 它 无 法 利用 缓存 。 数 组 元 素 很 少 和 相 邻 的 其 他 元 素 进 行 比较 ， 因 此 缓存 未 命中 的 次 
数 要 远 远 高 于 大 多 数 比较 都 在 相 邻 元 素 间 进 行 的 算法 ， 如 快速 排序 、 归 并 排序 ， 甚 至 是 希 尔 排序 。 





2.4 优先 队列 坷 209 


另 一 方面 ， 用 堆 实 现 的 优先 队列 在 现代 应 用 程序 中 越 来 越 重要 ， 因 为 它 能 在 插入 操作 和 删除 最 大 326 
元 素 操作 混合 的 动态 场景 中 保证 对 数 级 别 的 运行 时 间 。 我 们 会 在 本 书后 续 章 节 见 到 更 多 的 例子 。 327 


图 答疑 


问 ”我 还 是 不 明白 优先 队列 是 做 什么 用 的 。 为 什么 我 们 不 直接 把 元 素 排 序 然后 再 一 个 个 地 引用 有 序数 组 
中 的 元 素 ? 

答 ”在 某 些 数据 处 理 的 例子 里 ， 比 如 TopM 和 Multiway， 总 数据 量 太 大 ， 无 法 排序 ( 甚至 无 法 全 部 装 进 
内 存 ) 。 如 果 你 需要 从 10 亿 个 元 素 中 选 出 最 大 的 十 个 ， 你 真 的 想 把 一 个 10 亿 规 模 的 数组 排序 吗 ? 
但 有 了 优先 队列 ， 你 就 只 用 一 个 能 存储 十 个 元 素 的 队列 即 可 。 在 其 他 的 例子 中 ,我 们 甚至 无 法 同时 
获取 所 有 的 数据 ， 因 此 只 能 先 从 优先 队列 中 取出 并 处 理 一 部 分 ， 然 后 再 根据 结果 决定 是 否 向 优先 队 
列 中 添加 更 多 的 数据 。 

问 ”为 什么 不 像 我 们 在 其 他 排序 算法 中 那样 使 用 Comparable 接口 , 而 在 MaxPQ 中 使 用 泛 型 的 Ttem 呢 ? 

答 ” 这 么 做 的 话 delMax( 的 用 例 就 需要 将 返回 值 转换 为 某 种 具体 的 类 型 ， 比 如 String。 一 般 来 说 ， 应 
该 尽量 避免 在 用 例 中 进行 类 型 转换 。 

问 ”为 什么 在 堆 的 表示 中 不 使 用 a[0] ? 

答 这 么 做 可 以 稍稍 简化 计算 。 实 现 从 0 开始 的 堆 并 不 困难 ，a[0] 的 子 结 点 是 a[1] 和 a[2] ，a[1] 的 
子 结 点 是 a[3] 和 a[4] ，a[2] 的 子 结 点 是 a[5] 和 a[6] ， 以 此 类 推 。 但 大 多 数 程序 员 更 喜欢 我 们 的 
简单 方法 。 男 外 ， 将 a[0] 的 值 用 作 哨 兵 ( 作为 a[1] 的 父 结 点 ) 在 某 些 堆 的 应 用 中 很 有 用 。 

问 ”在 我 看 来 ， 在 堆 排 序 中 构造 堆 时 ， 逐 个 向 堆 中 添加 元 素 比 2.4.5.1 节 中 描述 的 由 底 向 上 的 复杂 方法 更 
简单 。 为 什么 要 这 么 做 ? 

答对 于 一 个 排序 算法 来 说 ， 这 么 做 能 够 快 上 20%， 而 且 所 需 的 代码 更 少 〈 不 会 用 到 swim() 函数 ) 。 
理解 算法 的 难度 并 不 一 定 与 它 的 简洁 性 或 者 效率 相关 。 

问 ”如果 我 去 掉 MaxPQ 的 实现 中 的 extends Comparable<Key> 这 人 句 话 会 怎样 ? 

答 和 以 前 一 样 ， 回 答 这 类 问题 的 最 简单 的 办 法 就 是 你 自己 直接 试 试 。 如 果 这 么 做 MaxPQ 会 报 出 一 个 编 
译 错误 : 

MaxPQ.java:21: cannot find symbol 
symbol : method compareTo(Item) 


Java 这 样 告诉 你 它 不 知道 Item 对 象 的 compareTo() 方 法， 因为 你 没有 声明 Item extends 


Comparable<Item>, 


Ww 
DD 
Co 


图 练习 


2.4.1 用 序列 PRIO*RrwIwTxYwwwQUEY***Uxw*E (字母 表示 插入 元 素 ， 星 号 表 
示 删 除 最 大 元 素 ) 操作 一 个 初始 为 空 的 优先 队列 。 给 出 每 次 删除 最 大 元 素 返 回 的 字符 。 

2.4.2 分 析 以 下 说 法 : 要 实现 在 常数 时 间 找 到 最 大 元 素 ， 为 何不 用 一 个 栈 或 队列 ， 然 后 记录 已 插入 的 最 
大 元 素 并 在 找 出 最 大 元 素 时 返回 它 的 值 ? 

2.4.3 用 以 下 数据 结构 实现 优先 队列 ， 支 持 插 入 元 素 和 删除 最 大 元 素 的 操作 : 无 序数 组 、 有 序数 组 、 无 
序 链 表 和 链表 。 将 你 的 4 种 实现 中 每 种 操作 在 最 坏 情 况 下 的 运行 时 间 上 下 限制 成 一 张 表 格 。 

2.4.4 一 个 按 降序 排列 的 数组 也 是 一 个 面向 最 大 元 素 的 堆 吗 ? 
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2.4.5 
2.4.6 


2.4.7 


2.4.8 
2.4.9 


2.4.10 
2.4.11 
2.4.12 


2.4.13 
2.4.14 


2.4.15 
2.4.16 
2.4.17 


2.4.18 


2.4.19 


[330| 2.4.20 


将 EASYQUESTION 顺序 插入 一 个 面向 最 大 元 素 的 堆 中 ， 给 出 结果 。 

按照 练习 2.4.1 的 规则 ， 用 序列 PRIO*RxrxIxwTxYxwnwQUE**s*UxE 操 
作 一 个 初始 为 空 的 面向 最 大 元 素 的 堆 ， 给 出 每 次 操作 后 堆 的 内 容 。 

在 堆 中 ， 最 大 的 元 素 一 定 在 位 置 1 上 , 第 二 大 的 元 素 一 定 在 位 置 2 或 者 3 上 。 对 于 一 个 大 小 为 31 
的 堆 , 给 出 第 大 大 的 元 素 可 能 出 现 的 位 置 和 不 可 能 出 现 的 位 置 , 其 中 本 2、3、4( 设 元 素 值 不 重复 ) 。 
回答 上 一 道 练习 中 第 小 元 素 的 可 能 和 不 可 能 的 位 置 。 

给 出 A B C D E 五 个 元 素 可 能 构造 出 来 的 所 有 堆 ， 然 后 给 出 A A A B B 这 五 个 元 素 可 能 构造 出 
来 的 所 有 堆 。 

假设 我 们 不 想 浪 费 堆 有 序 的 数组 pq[] 中 的 那个 位 置 ， 将 最 大 的 元 素 放 在 pq[0] ， 它 的 子 结 点 放 
在 pq[1] 和 pq[2] ， 以 此 类 推 。pq[k] 的 父 结 点 和 子 结 点 在 哪里 ? 

如 果 你 的 应 用 中 有 大 量 的 插入 元 素 的 操作 ,但 只 有 若干 删除 最 大 元 素 操 作 ， 哪 种 优先 队列 的 实现 
方法 更 有 效 : 堆 、 无 序数 组 、 有 序数 组 ? 

如 果 你 的 应 用 场景 中 大 量 的 找 出 最 大 元 素 的 操作 ， 但 插入 元 素 和 删除 最 大 元 素 操作 相对 较 少 ， 
哪 种 优先 队列 的 实现 方法 更 有 效 : 堆 、 无 序数 组 、 有 序数 组 ? 

想 办 法 在 sink() 中 避免 检查 j < N。 

对 于 没有 重复 元 素 的 大 小 为 N 的 堆 ， 一 次 删除 最 大 元 素 的 操作 中 最 少 要 交换 几 个 元 素 ? 构造 
一 个 能 够 达到 这 个 交换 次 数 的 大 小 为 15 的 堆 。 连 续 两 次 删除 最 大 元 素 呢 ? 三 次 呢 ? 

设计 一 个 程序 ， 在 线性 时 间 内 检测 数组 pq[] 是 否 是 一 个 面向 最 小 元 素 的 堆 。 

对 于 N=32， 构 造 数组 使 得 堆 排序 使 用 的 比较 次 数 最 多 以 及 最 少 。 

证 明 : 构造 大 小 为 k 的 面向 最 小 元 素 的 优先 队列 ， 然 后 进行 N-K 次 替换 最 小 元 素 操 作 ( 删除 最 
小 元 素 后 再 插入 元 素 ) 后 ，N 个 元 素 中 的 前 上 大 元 素 均 会 留 在 优先 队列 中 。 

在 MaxPQ 中 ， 如 果 一 个 用 例 使 用 insert() 插入 了 一 个 比 队列 中 的 所 有 元 素 都 大 的 新 元 素 ， 随 
后 立即 调用 de1Max() 。 假 设 没 有 重复 元 素 ， 此 时 的 堆 和 进行 这 些 操 作 之 前 的 堆 完 全 相同 吗 ? 进 
行 两 次 insert() (第 一 次 插入 一 个 比 队 列 所 有 元 素 都 大 的 元 素 ， 第 二 次 搬 人 一 个 更 大 的 元 素 ) 
操作 接 两 次 de1Max() 操作 呢 ? 

实现 MaxPQ 的 一 个 构造 函数 ， 接 受 一 个 数组 作为 参数 。 使 用 正文 2.4.5.1 节 中 所 述 的 自 底 向 上 的 
方法 构造 堆 。 

证 明 : 基于 下 沉 的 堆 构 造 方法 使 用 的 比较 次 数 小 于 2V， 交 换 次 数 小 于 N。 


图 提高 是 


2.4.21 
2.4.22 


2.4.23 


2.4.24 


基础 数据 结构 。 说 明 如 何 使 用 优先 队列 实现 第 1 章 中 的 栈 、 队 列 和 随机 队列 这 几 种 数据 结构 。 
调整 数组 大 小 。 在 MaxPQ 中 加 入 调整 数组 大 小 的 代码 ， 并 和 命题 Q 一 样 证 明 对 于 一 般 性 长 度 为 
NN 的 队列 其 数组 访问 的 上 限 。 

Multiway 的 堆 。 只 考虑 比较 的 成 本 且 假设 找到 :个 元 素 中 的 最 大 者 需要 ! 次 比较 ， 在 堆 排 序 中 使 
用 + 向 堆 的 情况 下 找 出 使 比较 次 数 NlgN 的 系数 最 小 的 1 值 。 首 先 ， 假 设 使 用 的 是 一 个 简单 通用 
的 sinkQ 方法 ; 其 次 , 假设 Floyd 方法 在 内 循环 中 每 轮 可 以 节省 一 次 比较 。 

使 用 链接 的 优先 队列 。 用 堆 有 序 的 二 叉 树 实现 一 个 优先 队列 ， 但 使 用 链表 结构 代替 数组 。 每 个 
结 点 都 需要 三 个 链接 : 两 个 向 下 ， 一 个 向 上 。 你 的 实现 即使 在 无 法 预知 队列 大 小 的 情况 下 也 能 
保证 优先 队列 的 基本 操作 所 需 的 时 间 为 对 数 级 别 。 


2.4.25 


2.4.26 


2.4.27 
2.4.28 


2.4.29 


2.4.30 


2.4.31 


2.4.32 


2.4.33 
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计算 数论 。 编 写 程序 CubeSum.java， 在 不 使 用 额外 空间 的 条 件 下 ， 按 大 小 顺序 打印 所 有 ai+bi 的 
结果 ,其 中 a 和 65 为 0 至 入 之 间 的 整数 。 也 就 是 说 ,不 要 全 部 计算 NV 个 和 然后 排序 ， 而 是 创建 
一 个 最 小 优先 队列 , 初始 状态 为 (0 0, 0),(1, 1, 0),(2”, 2, 0)…,(ME, N, 0)。 这 样 只 要 优先 队列 非 空 ， 
删除 并 打印 最 小 的 元 素 (2+ 六 , i, 四。 然后 如 果 j<N， 插 入 元 素 (+0+1), i, +1)。 用 这 段 程序 找 出 
0 到 10' 之 间 所 有 满足 qs+b'=ci+q 的 不 同 整数 ab,c,d。 

无 需 交 换 的 堆 。 因 为 sink() 和 swim() 中 都 用 到 了 初级 函数 exch()， 所 以 所 有 元 素 都 被 多 加 载 
并 存储 了 一 次 。 回 避 这 种 低 效 方式 ， 用 插入 排序 给 出 新 的 实现 ( 请 见 练习 2.1.25 ) 。 

找 出 最 小 元 素 。 在 MaxPQ 中 加 入 一 个 minQ 方法 。 你 的 实现 所 需 的 时 间 和 空间 都 应 该 是 常数 。 
选择 过 滤 。 编 写 一 个 TopM 的 用 例 ， 从 标准 输入 读 和 人 坐标 (x, y, z)， 从 命令 行 得 到 值 M， 然 后 打 
印 出 距离 原点 的 欧 几 里 德 距离 最 小 的 M 个 点 。 在 N=10° 且 ME10 时， 预计 程序 的 运行 时 间 。 
同时 面向 最 大 和 最 小 元 素 的 优先 队列 。 设 计 一 个 数据 类 型 ， 支 持 如 下 操作 : 插入 元 素 、 删 除 最 
大 元 素 、 删 除 最 小 元 素 ( 所 需 时 间 均 为 对 数 级 别 ) ， 以 及 找到 最 大 元 素 、 找 到 最 小 元 素 ( 所 需 
时 间 均 为 常数 级 别 ) 。 提 示 : 用 两 个 堆 。 

动态 中 位 数 查找 。 设 计 一 个 数据 类 击 ， 支 持 在 对 数 时 间 内 插入 元 素 ， 常 数 时 间 内 找到 中 位 数 并 在 
对 数 时 间 内 删除 中 位 数 。 提 示 : 用 一 个 面向 最 大 元 素 的 堆 再 用 一 个 面向 最 小 元 素 的 堆 。 

快速 插入 。 用 基于 比较 的 方式 实现 MinPQ 的 API， 使 得 插入 元 素 需 要 ~ loglogN 次 比较 ， 删 除 
最 小 元 素 需 要 ~2logN 次 比较 。 提 示 : 在 swim() 方法 中 用 二 分 查找 来 寻找 祖先 结 点 。 

下 界 。 请 证 明 ， 不 存在 一 个 基于 比较 的 对 MinPQ 的 API 的 实现 能 够 使 得 插入 元 素 和 删除 最 小 元 
素 的 操作 都 保证 只 使 用 ~NloglogN 次 比较 。 

索引 优先 队列 的 实现 ,按照 2.4.4.6 节 的 描述 修改 算法 2.6 来 实现 索引 优先 队列 API 中 的 基本 操作 : 
使 用 pq[] 保存 索引 ， 添 加 一 个 数组 keys[] 来 保存 元 素 ， 再 添加 一 个 数组 qp[] 来 保存 pq[] 的 
逆序 一 一 qp[i] 的 值 是 i 在 pq[] 中 的 位 置 ( 即 索引 j，pq[j]=i ) 。 修 改 算 法 2.6 的 代码 来 维护 
这 些 数据 结构 。 若 i 不 在 队列 之 中 ， 则 总 是 令 qp[i] = -1 并 添加 一 个 方法 contains () 来 检测 
这 种 情况 。 你 需要 修改 辅助 函数 exch() 和 less() ， 但 不 需要 修改 sink() 和 swim()。 
部 分 答案 : 





public class IndexMinPQ<Key extends Comparable<Key>> 


L 

private int N; // PQ 中 的 元 素数 量 
private int[] pq; // 索引 二 又 堆 ， 由 1 开始 
private int[] qp; // 逆序 : qp[pq[i]] = pq[qp[i]] = i 
private Key[] keys; // 有 优先 级 之 分 的 元 素 
public IndexMinPQCint maxN) 
‘ 

keys = (Key[]) new Comparable[maxN + 1]; 

pq = new int[maxN + 1]; 

qp = new int[maxN + 1]; 

for (int 1 = 0; 1 <= maxN; i++) qp[i] = -1; 


} 
public boolean isEmpty() 
{ return N == 0; } 


public boolean contains(int k) 
{ return qp[k] != -1; } 
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2.4.34 


2.4.35 


public void insert(int k, Key key) 
省 


N++; 

qp[k] = 
pq[N] = 
keys[k] 
SWim(N); 


} 


public Key ming) 
{ return keys[pq[1]]; } 


public int delMin©O 

& 
int indexOfMin = pq[1]; 
exch(1, N--); 
sink(1); 
keys[pq[N+1]] = null; 
qp[pq[N+1]] = -1; 
return indexOfMin; 


索引 优先 队列 的 实现 (附加 操作 ) 。 向 练习 2.4.33 的 实现 中 添加 minIndex()、change() 和 
delete() 方法 。 

解答 : 

public int minIndex() 

{ veturn pq9[; 于 


public void change(int k, Key Key) 
{ 

keys[k] = key; 

swim(qp[k]); 

sink(qp[k]); 
+ 


public void delete(int k) 

{ 
exch(k, N--); 
swim(qp[k]); 
sink(Cqp[k]); 
keys[pq[N+1]] = null; 
qp[pq[N+1]] = -1; 

} 


离散 概率 分 布 的 取样 。 编 写 一 个 Sample 类 ， 其 构造 函数 接受 一 个 double 类 型 的 数组 p[] 作为 
参数 并 支持 以 下 操作 : random() 一 一 返回 任意 索引 i 及 其 概率 p[i]/T(T 是 p[] 中 所 有 元 素 之 
和 ) ; change(i，v) 一 一 将 p[i] 的 值 修改 为 v。 提 示 : 使 用 完全 二 叉 树 ， 每 个 结 点 对 应 一 个 
权重 p[i] 。 在 每 个 结 点 记录 其 下 子 树 的 权重 之 和 。 为 了 产生 一 个 随机 的 索引 ， 取 0 到 TT 之 间 的 
一 个 随机 数 并 根据 各 个 结 点 的 权重 之 和 来 判断 沿 着 哪 条 子 树 搜索 下 去 。 在 更 新 p[i] 时 ， 同 时 更 
新 从 根 结 点 到 i 的 路 径 上 的 所 有 结 点 。 不 要 像 堆 的 实现 那样 显 式 使 用 指针 。 
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图 实验 古 


2.4.36 ”性 能 测试 1。 编写 一 个 性 能 测试 用 例 ， 用 插入 元 素 操作 填 满 一 个 优先 队列 ， 然 后 用 删除 最 大 元 
素 操作 删 去 一 半 元 素 , 再 用 插入 元 素 操作 填 满 优先 队列 ,再 用 删除 最 大 元 素 操作 删 去 所 有 元 素 。 
用 一 列 随机 的 长 短 不 同 的 元 素 多 次 重复 以 上 过 程 ， 测 量 每 次 运行 的 用 时 ， 打 印 平均 用 时 或 是 将 
其 绘制 成 图 表 。 

2.4.37 性 能 测试 II。 编写 一 个 性 能 测试 用 例 ， 用 插入 元 素 操作 填 满 一 个 优先 队列 ， 然 后 在 一 秒 钟 之 内 
尽 可 能 多 地 连续 反复 调用 删除 最 大 元 素 和 插入 元 素 的 操作 。 用 一 列 随机 的 长 短 不 同 的 元 素 多 次 
重复 以 上 过 程 ， 将 程序 能 够 完成 的 删除 最 大 元 素 操 作 的 平均 次 数 打印 出 来 或 是 绘 成 图 表 。 

2.4.38 练习 测试 。 编 写 一 个 练习 用 例 ， 用 算法 2.6 中 实现 的 优先 队列 的 接口 方法 处 理 实际 应 用 中 可 能 
出 现 的 高 难度 或 是 极端 情况 。 例 如 ， 元 素 已 经 有 序 、 元 素 全 部 逆序 、 元 素 全 部 相同 或 是 所 有 元 
素 只 有 两 个 值 。 

2.4.39 ”构造 函数 的 代价 。 对 于 N=10;、10 和 10”， 根 据 经 验 判 断 堆 排序 时 构造 堆 占 总 耗 时 的 比例 。 

2.4.40 Floyd 方法 。 根据 正 文中 Floyd 的 先 沉 后 浮 思想 实现 堆 排 序 。 对 于 N=10*、10 和 10? 大 小 的 随机 
不 重复 数组 ， 记 录 你 的 程序 所 使 用 的 比较 次 数 和 标准 实现 所 使 用 的 比较 次 数 。 

2.4.41 Multiway 堆 。 根 据 正文 中 的 描述 实现 基于 完全 堆 有 序 的 三 又 树 和 四 又 树 的 堆 排 序 。 对 于 
NE10 、10' 和 10? 大 小 的 随机 不 重复 数组 ， 记 录 你 的 程序 所 使 用 的 比较 次 数 和 标准 实现 所 使 用 的 
比较 次 数 。 

2.4.42 堆 的 前 序 表 示 。 用 前 序 法 而 非 级 别 表 示 一 棵 堆 有 序 的 树 ， 并 基于 此 实现 堆 排序 。 对 于 N=10?、 
10* 和 10 大 小 的 随机 不 重复 数组 ， 记 录 你 的 程序 所 使 用 的 比较 次 数 和 标准 实现 所 使 用 的 比较 
次 数 。 
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2.5 ”应 用 


排序 算法 和 优先 队列 在 许多 场景 中 有 着 广泛 的 应 用 。 本 节 中 我 们 将 简要 地 浏览 一 遍 这 些 应 用 ， 
研究 如 何 能 让 我 们 已 经 学 习 过 的 高 效 算法 在 这 些 应 用 中 大 展 身手 ,然后 讨论 一 下 应 该 如 何 使 用 我 们 
的 排序 和 优先 队列 的 代码 。 | 

排序 如 此 有 用 的 一 个 主要 原因 是 ,在 一 个 有 序 的 数组 中 查找 一 个 元 素 要 比 在 一 个 无 序 的 数 
组 中 查找 简单 得 多 。 人 们 用 了 一 个 多 世纪 发 现在 一 本 按 姓氏 排序 的 电话 黄页 中 查找 某 个 人 的 
电话 号 码 最 容易 。 现 在 ， 数 字音 乐 作 家 们 将 歌曲 文件 按照 作家 名 或 是 歌曲 名 排序 ， 搜 索引 擎 
按照 搜索 结果 的 重要 性 的 高 低 显 示 结 果 ， 电 子 表 格 按照 某 一 列 的 排序 结果 显示 所 有 栏 ， 和 矩阵 
处 理工 具 将 一 个 对 称 和 矩阵 的 真实 特征 值 按照 降序 排列 ， 等 等 。 只 要 队列 是 有 序 的 ， 很 多 其 他 
任务 也 更 容易 完成 ， 比 如 在 本 书 最 后 的 有 序 索 引 中 查找 某 项 ,或 是 从 一 列 长 长 的 邮件 列表 或 
者 投票 人 列表 或 者 网 站 列表 中 删 去 重复 项 ,或 是 在 统计 学 计算 中 剔除 异常 值 、 查 找 中 位 数 或 
者 计算 比例 。 

在 许多 看 似 无 关 的 领域 中 ， 排 序 其 实 仍 然 是 一 个 重要 的 子 问题 。 数 据 压缩 、 计 算 机 图 形 学 、 计 
算 生 物 学 、 供 应 链 管理 、 组 合 优化 、 社 会 选择 和 投票 等 ， 不 一 而 足 。 我 们 在 本 章 中 学 习 的 算法 也 在 
开发 本 书 其 他 章节 的 强大 算法 的 过 程 中 起 到 了 关键 作用 。 

通用 排序 算法 是 最 重要 的 ， 因 此 我 们 首先 会 考虑 一 些 在 构建 适用 于 多 种 情况 的 排序 算法 时 需要 
注意 的 实际 问题 。 虽 然 部 分 话题 只 适用 于 Java， 但 每 个 问题 都 仍然 是 所 有 系统 需要 解决 的 。 

我 们 的 主要 目的 是 为 了 说 明 ， 尽 管 我 们 所 学 习 的 各 种 算法 的 思想 相对 简单 ， 但 它们 的 适用 
领域 仍然 广泛 。 经 过 验证 的 各 种 排序 算法 的 应 用 列表 很 长 ,我 们 在 这 里 只 会 涉及 其 中 的 一 小 部 分 ， 
一 些 是 科学 领域 的 ， 一 些 是 算法 领域 的 ， 还 有 一 些 是 商业 领域 的 。 在 练习 中 你 们 还 能 找到 更 多 
例子 ， 本 书 的 网 站 上 还 有 更 多 。 男 外 ,为 了 更 好 的 说 明 问 题 ， 后 续 章节 还 会 不 时 地 引用 本 章 的 
内 容 ! 


2.5.1 将 各 种 数据 排序 

我 们 的 实现 的 排序 对 象 是 由 实现 了 Comparable 接口 的 对 象 组 成 的 数组 。Java 的 约定 使 得 我 
们 能 够 利用 Java 的 回调 机 制 将 任意 实现 了 Comparable 接口 的 数据 类 型 排序 。 如 2.1 节 所 述 ， 实 现 
Comparable 接口 只 需要 定义 一 个 compareTo() 函数 并 在 其 中 定义 该 数据 类 型 中 的 大 小 关系 。 我 们 
的 代码 直接 能 够 将 String、Integer、Double 和 一 些 其 他 例如 File 和 URL 类 型 的 数组 排序 ， 因 
为 它们 都 实现 了 Comparable 接口 。 同 一 段 代 码 能 够 适应 所 有 这 些 类 型 的 数据 是 非常 方便 的 ， 但 一 
般 的 应 用 程序 中 需要 排序 的 数据 类 型 都 是 应 用 程序 自己 定义 的 。 相 应 ， 在 自 定义 的 数据 类 型 中 实现 
一 个 compareTo() 方法 也 是 很 常见 的 ， 这 样 就 实现 了 Comparable 接口 ， 也 就 使 得 这 种 数据 类 型 
可 以 被 排序 了 ( 也 可 以 用 其 构造 优先 队列 ) 。 
2.5.1.1 交易 事务 

排序 算法 的 一 种 典型 应 用 就 是 商业 数据 处 理 。 例 如 ， 设 想 一 家 互联 网 商业 公司 为 每 笔 交 易 记 录 
都 保存 了 所 有 的 相关 信息 ， 包 括 客户 名 、 日 期 、 金 额 等 。 如 今 ， 一 家 成 功 的 商业 公司 需要 能 够 处 理 
数 百 万 的 这 种 交易 数据 。 如 我 们 在 练习 2.1.21 中 看 到 的 ， 一 种 合适 的 方法 是 将 交易 记录 按 金 额 大 小 
排序 ， 我 们 在 类 的 定义 中 实现 一 个 恰当 的 compareTo0) 方法 就 可 以 做 到 这 一 点 。 这 样 我 们 在 处 理 
Transaction 类 型 的 数组 a[] 时 就 可 以 先 将 其 排序 ， 比 如 这 样 Quick.sort(a)。 我 们 的 排序 算法 
对 Transaction 类 型 一 无 所 知 ， 但 Java 的 Comparable 接口 使 我 们 可 以 为 该 类 型 定义 大 小 关系 ， 


2.5 应 用 霹 215 


这 样 我 们 的 任意 排序 算法 都 能 够 用 于 Transaction 对 象 了 。 或 者 我 们 也 可 以 令 Transaction 对 象 
按照 日 期 排序 ( 如 下 面 的 代码 所 示 ) ,将 compareTo0 方法 实现 为 比较 Date 字段 。 因 为 Date 对 
象 本 身 也 实现 了 Comparable 接口 ,我 们 可 以 直接 调用 它 的 compareTo() 方法 而 不 用 自己 实现 了 。 
将 这 种 类 型 按照 用 户 名 排序 也 是 合理 的 。 使 算法 的 用 例 能 够 灵活 地 用 不 同 的 字段 排序 则 是 我 们 在 稍 
后 将 要 面 对 的 另 一 项 有 趣 的 挑战 。 


public int compareTo(Transaction that) 
{ return this.when.compareTo(that.when); } 


将 交易 记录 按照 日 期 排序 的 compareTo() 方 法 
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2.5.1.2 ”指针 排序 

我 们 使 用 的 方法 在 经 典 教材 中 被 称 为 指针 排序 , 因为 我 们 只 处 理 元 素 的 引用 而 不 移动 数据 本 身 。 
在 其 他 编程 语言 例如 C 和 C++ 之 中 ,程序 员 需 要 明确 地 指出 操作 的 是 数据 还 是 指向 数据 的 指针 ， 
而 在 Java 中 ， 指 针 操 作 是 隐 式 的 。 除 了 原始 数字 类 型 之 外 ， 我 们 操作 的 总 是 数据 的 引用 (指针 ) ， 
而 非 数 据 本 身 。 指 针 排 序 增加 了 一 层 间 接 性 , 因为 数组 保存 的 是 待 排序 的 对 象 的 引用 , 而 非 对 象 本 身 。 
我 们 会 简要 讨论 一 些 相关 的 问题 。 对 于 多 个 引用 数组 ， 我 们 可 以 将 同一 组 数据 的 不 同 部 分 按照 多 种 
方式 排序 ( 可 能 会 用 到 下 面 提 到 的 多 键 ) 。 
2.5.1.3 不 可 变 的 键 

如 果 在 排序 后 用 例 还 能 够 修改 键 值 ， 那 么 数组 就 很 可 能 不 再 是 有 序 的 了 。 类 似 ， 优 先 队列 在 
用 例 能 够 修改 键 值 的 情况 下 也 不 太 可 能 正常 工作 。 在 Java 中 ， 可 以 用 不 可 变 的 数据 类 型 作为 键 来 
避免 这 个 问题 。 大 多 数 你 可 能 用 作 键 的 数据 类 型 ， 例 如 String、Integer、Double 和 File 都 是 
不 可 变 的 。 
2.5.1.4 ”廉价 的 交换 

使 用 引用 的 另 一 个 好 处 是 我 们 不 必 移 动 整个 元 素 。 对 于 元 素 大 而 键 小 的 数组 来 说 这 带 来 的 节 
约 是 巨大 的 ， 因 为 比较 只 需要 访问 元 素 的 一 小 部 分 ， 而 排序 过 程 中 大 部 分 元 素 都 不 会 被 访问 到 。 
对 于 几乎 任意 大 小 的 元 素 ， 使 用 引用 使 得 在 一 般 情 况 下 交换 的 成 本 和 比较 的 成 本 几乎 相同 (代价 
是 需要 额外 的 空间 存储 这 些 引 用 ) 。 如 果 键 值 很 长 ， 那 么 交换 的 成 本 甚至 会 低 于 比较 的 成 本 。 研 
究 将 数字 排序 的 算法 性 能 的 一 种 方法 就 是 观察 其 所 需 的 比较 和 交换 总 数 ， 因 为 这 里 隐 式 地 假设 了 
比较 和 交换 的 成 本 是 相同 的 。 由 此 得 出 的 结论 则 适用 于 Java 中 的 许多 应 用 ， 因 为 我 们 都 是 在 将 引 
用 排序 。 
2.5.1.5 ”多 种 排序 方法 

在 很 多 应 用 中 我 们 都 希望 根据 情况 将 一 组 对 象 按照 不 同 的 方式 排序 。Java 的 Comparator 接 
口 允许 我 们 在 一 个 类 之 中 实现 多 种 排序 方法 。 它 只 有 一 个 compare() 方法 来 比较 两 个 对 象 。 如 果 
一 种 数据 类 型 实现 了 这 个 接口 ， 我 们 可 以 像 2.5.1.6 节 中 的 例子 那样 将 另 一 个 实现 了 Comparator 
接口 的 对 象 传递 给 sortQ 方法 (sort() 再 将 其 传递 给 less() ) 。Comparator 接口 允许 我 们 
为 任意 数据 类 型 定义 任意 多 种 排序 方法 。 用 Comparator 接口 来 代替 Comparable 接口 能 够 更 好 
地 将 数据 类 型 的 定义 和 两 个 该 类 型 的 对 象 应 该 如 何 比较 的 定义 区 分 开 来 。 事 实 上 ， 比 较 两 个 对 象 ”[338 
的 确 可 以 有 多 种 标准 ，Comparator 接口 使 得 我 们 能 够 在 其 中 进行 选择 。 例 如 ， 想 在 忽略 大 小 写 
的 情况 下 将 字符 串 数组 a[] 排序 ， 可 以 使 用 Java 的 String 类 型 中 定义 的 CASE_INSENSITVE_ 
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ORDER 比较 器 并 调用 Insertion.sort(a，String.CASE_INSENSITIVE_ORDER) 。 你 也 知道 ， 精 
确定 义 的 字符 串 排序 规则 十 分 复杂 ， 而 各 种 自然 语言 又 差异 很 大 ， 所 以 Java 的 String 类 型 含有 
很 多 比较 器 。 
2.5.1.6 ”多 键 数组 

一 般 在 应 用 程序 中 ， 一 个 元 素 的 多 种 属性 都 可 能 被 用 作 排 序 的 键 。 在 交易 的 例子 中 ， 有 时 
可 能 需要 将 交易 按照 客户 排序 ( 例如 ， 找 出 每 个 客户 进行 的 所 有 交易 ) ; 有 时 又 可 能 需要 按 
照 金额 排序 ( 例如 ， 需 要 找 出 交易 金额 较 高 的 交易 ) ; 有 时 还 可 能 用 另 一 个 属性 来 排序 。 要 
实现 这 种 灵活 性 ，Comparator 接口 正 合适 。 我 们 可 以 定义 多 种 比较 器 ， 如 2.5.1.7 节 展 示 的 
Transaction 类 的 另 一 种 实现 那样 。 在 这 样 定 义 之 后 ， 要 将 Transaction 对 象 的 数组 按照 时 
间 排 序 可 以 调用 : 


Insertion.sort(a, new Transaction.WhenOrder()) 
或 者 这 样 来 按照 金额 排序 : 
Insertion.sort(a, new Transaction.HowMuchOrder()) 


sort() 方法 在 每 次 比较 中 都 会 回调 Transaction 类 中 用 例 指 定 的 compare() 方法 。 为 了 避免 
每 次 排序 都 创建 一 个 新 的 Comparator 对 象 ， 我 们 使 用 了 pub1ic final 来 定义 这 些 比 较 器 (代码 
如 下 ， 就 像 Java 定义 的 CASE_INSENSITIVE_ORDER 一 样 ) 。 


public static void sort(Object[] a, Comparator c) 
{ 
int N = a.length; 
for Cint 1 = Ls 1 x Ny -i++) 
for (int j = i; j > 0 && less(c, a[j], a[j-1]); j--) 
exch(a, j, j-1); 
} 


private static boolean less(Comparator c, Object v, Object w) 
{ return c.compare(v, w) < 0; } 


private static void exch(Object[] a, int 1, int j) 
{ Object t = a[i]; a[i] = a[j]; a[j] = t; } 
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2.5.1.7 ”使 用 比较 器 实现 优先 队列 

比较 带 的 灵活 性 也 可 以 用 在 优先 队列 上 。 我 们 可 以 按照 以 下 步骤 来 扩展 算法 2.6 的 标准 实现 来 
支持 比较 髓 : 

口 导入 java.uti1.Comparator; 

口 为 MaxPQ 添加 一 个 实例 变量 comparator 以 及 一 个 构造 函数 ， 该 构造 函数 接受 一 个 比较 器 

作为 参数 并 用 它 将 comparator 初始 化 ; 
口 在 1less() 中 检查 comparator 属性 是 否 为 nul11 ( 如果 不 是 的 话 就 用 它 进行 比较 ) 。 
实现 代码 如 下 : 
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import java.util.Comparator; 
public class Transaction 


{ 


private final String who; 
private final Date when; 
private final double amount; 


public static class WhoOrder implements Comparator<Transaction> 


{ 
public int compare(Transaction v, Transaction w) 
{ return v.who.compareTo(w.who); } 

} 


public static class WhenOrder implements Comparator<Transaction> 
{ 

public int compare(Transaction v, Transaction w) 

{ return v.when.compareTo(w.when); } 


} 


public static class HowMuchOrder implements Comparator<Transaction> 


{ 


public int compare(Transaction v, Transaction w) 

{ 
if (v.amount < w.amount) return -1; 
if (v.amount > w.amount) return +1; 
return 0; 

} 

} 
ha 


使 用 了 Comparator 的 插入 排序 


例如 ， 修 改 后 可 以 使 用 Transaction 的 多 种 字段 构造 不 同 的 优先 队列 ， 分 别 按照 时 间 、 地 点 、 
账号 排序 。 如 果 你 在 MinPQ 中 去 掉 了 Key extends Comparable<Key> 这 句 话 ， 甚 至 可 以 支持 尚 
未 定义 过 比较 方法 的 键 。 
2.5.1.8 稳定 性 

如 果 一 个 排序 算法 能 够 保留 数组 中 重复 元 素 的 相对 位 置 则 可 以 被 称 为 是 稳定 的 。 这 个 性 质 在 许 
多 情况 下 很 重要 。 例 如 ， 考 虑 一 个 需要 处 理 大 量 含有 地 理 位 置 和 时 间 戳 的 事件 的 互联 网 商业 应 用 程 
序 。 首 先 ， 我 们 在 事件 发 生 时 将 它们 挨个 存储 在 一 个 数组 中 ， 这 样 在 数组 中 它们 已 经 是 按照 时 间 顺 
序 排 好 了 的 。 现 在 假设 在 进一步 处 理 前 将 按照 地 理 位 置 切 分 。 一 种 简单 的 方法 是 将 数组 按照 位 置 排 
序 。 如 果 排 序 算法 不 是 稳定 的 ， 排 序 后 的 每 个 城市 的 交易 可 能 不 会 再 是 按照 时 间 顺 序 排列 的 了 。 很 
多 情况 下 ， 不 熟悉 排序 稳定 性 的 程序 员 在 第 一 次 遇见 这 种 情形 时 会 惊讶 于 不 稳定 的 排序 算法 似乎 把 
数据 弄 得 一 团 糟 。 在 本 章 中 ， 我 们 学 习 过 的 一 部 分 算法 是 稳定 的 (插入 排序 和 归并 排序 ) ,但 很 多 
不 是 (选择 排序 、 希 尔 排序 、 快 速 排序 和 堆 排 序 ) 。 有 很 多 办 法 能 够 将 任意 排序 算法 变 成 稳定 的 (请 
见 练习 2.5.18 ) ， 但 一 般 只 有 在 稳定 性 是 必要 的 情况 下 稳定 的 排序 算法 才 有 优势 。 人 们 很 容易 觉得 
算法 具有 稳定 性 是 理所当然 的 ， 但 事实 上 没有 任何 实际 应 用 中 常见 的 方法 不 是 用 了 大 量 额外 的 时 间 
和 空间 才 做 到 了 这 一 点 (研究 人 员 开 发 了 这 样 的 算法 , 但 应 用 程序 员 发 现 它们 太 复 杂 了 , 无 法 使 用 ) 。 

从 男 一 个 键 上 排序 的 稳定 性 如 图 2.5.1 所 示 。 
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按照 时 间 排 序 按照 地 理 位 置 排序 (不 稳定 ) 按照 地 理 位 置 排序 (稳定 》 
Chicago 09:00:00 Chicago 09:25:52 Chicago 09:00:00 
Phoenix 09:00:03 Chicago 09:03:13 Chicago 09:00:59 
Houston 09:00:13 Chicago 09:21:05 Chicago 09:03:13 
Chicago 09:00:59 Chicago 09:19:46 Chicago 09:19:32 
Houston 09:01:10 Chicago 09:19:32 Chicago 09:19:46 
Chicago 09:03:13 Chicago 09:00:00 Chicago 09:21:05 
Seattle 09:10:11 Chicago 09:35:21 Chicago 09:25:52 
Seattle 09:10:25 Chicago 09:00:59 Chicago 09:35:21 
Phoenix 09:14:25 Houston 09:01:10 Houston 09:00:13 
Chicago 09:19:32 Houston 09:00:13 不 再 时 Houston 09:01:10 仍然 时 
Chicago 09:19:46 Phoenix 09:37:44 间 有 序 Phoenix 09:00:03 间 有 序 
Chicago 09:21:05 Phoenix 09:00:03 Phoenix 09:14:25 
Seattle 09:22:43 Phoenix 09:14:25 Phoenix 09:37:44 
Seattle 09:22:54 Seattle 09:10:25 Seattle 09:10:11 
Chicago 09:25:52 Seattle 09:36:14 Seattle 09:10:25 
Chicago 09:35:21 Seattle 09:22:43 Seattle 09:22:43 
Seattle 09:36:14 Seattle 09:10:11 Seattle 09:22:54 
Phoenix 09:37:44 Seattle 09:;22:54 Seattle 09:36:14 


图 2.5.1 从 男 一 个 键 上 排序 的 稳定 性 


2.5.2 ”我 应 该 使 用 哪 种 排序 算法 

在 本 章 中 我 们 学 习 了 许多 种 排序 算法 ， 这 个 问题 就 变 得 很 自然 了 。 排 序 算法 的 好 坏 很 大 程度 上 
te oiet nin ee hake rb 
佳 算 法 接近 的 性 能 。 

表 2.5.1 总 结 了 在 本 章 中 我 们 学 习 过 的 排序 算法 的 各 种 重要 性 质 。 除 了 希 尔 排序 ( 它 的 复杂 度 
只 是 一 个 近似 ) 、 插 入 排序 〈 它 的 复杂 度 取决 于 输入 元 素 的 排列 情况 ) 和 快速 排序 的 两 个 版 本 ( 它 
们 的 复杂 度 和 概率 有 关 ， 取 决 于 输入 元 素 的 分 布 情况 ) 之 外 ， 将 这 些 运行 时 间 的 增长 数量 级 乘 以 适 
当 的 常数 就 能 够 大 致 估计 出 其 运行 时 间 。 这 里 的 常数 有 时 和 算法 有 关 ( 比如 堆 排 序 的 比较 次 数 是 归 
并 排序 的 两 倍 ， 且 两 者 访问 数组 的 次 数 都 比 快速 排序 多 得 多 ) ， 但 主要 取决 于 算法 的 实现 、Java 编 
译 器 以 及 你 的 计算 机 ， 这 些 因素 决定 了 需要 执行 的 机 器 指令 的 数量 以 及 每 条 指令 所 需 的 执行 时 间 。 
最 重要 的 是 ， 因 为 这 些 都 是 常数 ， 你 能 通过 较 小 的 W 得 到 的 实验 数据 和 我 们 的 标准 双 倍 测试 来 推测 
较 大 的 N 所 需 的 运行 时 间 。 


表 2.5.1 各 种 排序 算法 的 性 能 特点 
将 N 个 元 素 排 序 的 复杂 度 
> 稳定 。 是 否 为 原 一 注 

算法。 是 否 稳定 是否 为 原 地 排序 一 和亲 复 闲 度 ”空间 复 衣 并 备 
选择 排序 否 是 N I 
插入 排序 是 是 介 于 N 和 之 间 1 取决 于 输入 元 素 的 排列 情况 
希 尔 排序 否 是 MA 1 
快速 排序 否 是 NlogN leN 运行 效率 由 概率 提供 保证 
二 向 快 志 指 应 介 于 N 和 NlogN 运行 效率 由 概率 保证 ， 同 时 也 
NW 了 之 间 I8N 取决 于 输入 元 素 的 分 布 情况 
归并 排序 是 否 NlogN N 
堆 排 序 否 是 NlogN 1 
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性 质 T。 快 速 排序 是 最 快 的 通用 排序 算法 。 


例证 。 自 从 数 十 年 前 快速 排序 发 明 以 来 ， 它 在 无 数 计算 机 系统 中 的 无 数 实现 已 经 证 明了 这 一 点 。 
总 的 来 说 ， 快 速 排序 之 所 以 最 快 是 因为 它 的 内 循环 中 的 指令 很 少 〈 而 且 它 还 能 利用 缓存 ， 因 为 
它 总 是 顺序 地 访问 数据 ) ， 所 以 它 的 运行 时 间 的 增长 数量 级 为 ~cNIgN， 而 这 里 的 c 比 其 他 线性 
对 数 级 别 的 排序 算法 的 相应 常数 都 要 小 。 在 使 用 三 向 切 分 之 后 ， 快 速 排序 对 于 实际 应 用 中 可 能 
出 现 的 某 些 分 布 的 输入 变 成 线性 级 别 的 了 ， 而 其 他 的 排序 算法 则 仍然 需要 线性 对 数 时 间 。 


因此 ， 在 大 多 数 实 际 情况 中 ， 人 快速 排序 是 最 佳 选 择 。 当 然 ， 面 对 多 种 排序 方法 和 各 式 计 算 
机 及 系统 ， 这 人 么 一 句 干 巴巴 的 话 很 难 让 人 人 信服。 例如， 我们 已 经 见 过 一 个 明显 的 例外 : 如 果 稳 定 
性 很 重要 而 空间 又 不 是 问题 ， 归 并 排序 可 能 是 最 好 的 。 我 们 会 在 第 5 章 中 见 到 更 多 例外 。 有 了 
SortCompare 这 样 的 工具 ， 再 加 上 一 点 时 间 和 努力 ， 你 能 够 更 仔细 地 比较 这 些 算法 的 性 能 并 实现 我 
们 讨论 过 的 各 种 改进 方案 ， 详 见 本 节 最 后 的 若干 练习 。 也 许 证 明 性 质 T 的 最 好 方式 正如 这 里 所 说 ， 
在 运行 时 间 至 关 重 要 的 任何 排序 应 用 中 认真 地 考虑 使 用 快速 排序 。 
2.5.2.1 将 原始 类 型 数据 排序 

一 些 性 能 优先 的 应 用 的 重点 可 能 是 将 数字 排序 ， 因 此 更 合理 的 做 法 是 跳 过 引用 直接 将 原始 数据 
类 型 的 数据 排序 。 例 如 ， 想 想 将 一 个 double 类 型 的 数组 和 一 个 Double 类 型 的 数组 排序 的 差别 。 
对 于 前 者 我 们 可 以 直接 交换 这 些 数 并 将 数组 排序 ;而 对 于 后 者 ， 我 们 交换 的 是 存储 了 这 些 数字 的 
Double 对 象 的 引用 。 如 果 我 们 只 是 在 将 一 大 组 数 排序 的 话 ， 跳 过 引用 可 以 为 我 们 节省 存储 所 有 引 
用 所 需 的 空间 和 通过 引用 来 访问 数字 的 成 本 ， 更 不 用 说 那些 调用 compareTo() 和 1ess( 方法 的 
开销 了 。 把 Comparable 接口 替换 为 原始 数据 类 型 名 ， 重 定义 less (0) 方法 或 者 干脆 将 调用 lessO) 
的 地 方 替换 为 a[i] < a[j] 这 样 的 代码 ， 我 们 就 能 得 到 可 以 将 原始 数据 类 型 的 数据 更 快 地 排序 的 
各 种 算法 ( 请 见 练习 2.1.26 ) 。 
2.5.2.2 Java 系统 库 的 排序 算法 

为 了 演示 表 2.5.1 所 示 的 数据 ， 这 里 我 们 考虑 Java 系统 库 中 的 主要 排序 方法 java.util1. 
Arrays.sort()。 根 据 不 同 的 参数 类 型 ， 它 实际 上 代表 了 一 系列 排序 方法 : 

口 每 种 原始 数据 类 型 都 有 一 个 不 同 的 排序 方法 ; 

口 一 个 适用 于 所 有 实现 了 Comparable 接口 的 数据 类 型 的 排序 方法 ; 

口 一 个 适用 于 实现 了 比较 器 Comparator 的 数据 类 型 的 排序 方法 。 

Java 的 系统 程序 员 选 择 对 原始 数据 类 型 使 用 (三 向 切 分 的 ) 快速 排序 ， 对 引用 类 型 使 用 归并 排 
序 。 这 些 选择 实际 上 也 暗示 着 用 速度 和 空间 ( 对 于 原始 数据 类 型 ) 来 换取 稳定 性 (对 于 引用 类 型 ) ， 
如 刚才 讨论 的 那样 。 

我 们 讨论 过 的 这 些 算法 和 思想 是 包括 Java 的 许多 现代 系统 的 核心 组 成 部 分 。 当 为 实际 应 用 开发 
Java 程序 时 ， 你 会 发 现 Java 的 Arrays.sort() 实现 (可 能 再 加 上 你 自己 实现 的 compareTo() 或 者 
compare() ) 已 经 基本 够 用 了 ， 因 为 它 使 用 的 三 向 快速 排序 和 归并 排序 都 是 经 典 。 

在 本 书 中 我 们 一 般 都 会 使 用 我 们 自己 的 Quick.sort0) 或 者 Merge.sort() (在 稳定 性 比 空间 更 
重要 时 ) 。 你 也 可 以 使 用 Arrays.sort(), 或 者 在 特殊 的 情况 下 使 用 其 他 排序 算法 。 


2.5.3 ”问题 的 归 约 
使 用 排序 算法 来 解决 其 他 问题 的 思想 是 算法 设计 领域 的 基本 技巧 一 一 虹 约 的 一 个 例子 。 因 为 归 
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约 十 分 重要 ， 我 们 会 在 第 6 章 详细 讨论 它 ， 同 时 研究 几 个 具体 实例 。 归 约 指 的 是 为 解决 某 个 问题 而 
发 明 的 算法 正好 可 以 用 来 解决 另 一 种 问题 。 应 用 程序 员 对 于 归 约 的 概念 已 经 很 熟悉 了 无论 是 否 明 
确 地 知道 这 一 点 ) 一 一 每 次 你 在 使 用 解决 问题 B 的 方法 来 解决 问题 A 时 ， 你 都 是 在 将 A 归 约 为 B。 
实际 上 ,实现 算法 的 一 个 目标 就 是 使 算法 的 适用 性 尽 可 能 广泛 ,使 得 问题 的 归 约 更 简单 。 作 为 例子 ， 
我 们 先 看 看 几 个 简单 的 排序 问题 。 很 多 这 种 问题 都 以 算法 测验 的 形式 出 现 ， 而 解决 它们 的 第 一 想法 
往往 是 平方 级 别 的 暴力 破解 。 但 很 多 情况 下 如 果 先 将 数据 排序 ， 那 么 解决 剩 下 的 问题 就 只 需要 线性 
级 别 的 时 间 了 ， 这 样 归 约 后 的 运行 时 间 的 增长 数量 级 就 由 平方 级 别 降低 到 了 线性 对 数 级 别 。 
2.5.3.1 找 出 重复 元 素 : 

在 一 个 Comparable 对 象 的 数组 中 是 否 存 在 重复 元 素 ? 有 多 少 重复 元 素 ?” 哪个 值 出 现 得 最 频 
繁 ? 对 于 小 数组 ， 用 平方 级 别 的 算法 将 所 有 元 素 互 相 比较 一 遍 就 足以 解答 这 些 问 题 。 但 这 么 做 对 于 
大 数组 行 不 通 。 但 有 了 排序 ， 你 就 能 在 线性 对 数 的 时 间 内 回答 这 些 问题 : 首先 将 数组 排序 ， 然 后 遍 
历 有 序 的 数组 ， 记 录 连 续 出 现 的 重复 元 素 即 可 。 例 如 ， 下 面 就 是 一 段 统计 数组 中 不 重复 的 元 素 个 数 
的 代码 。 只 要 稍稍 修改 这 段 代码 你 就 能 回答 上 面 的 问题 ， 还 可 以 打印 所 有 不 同 元 素 的 值 、 所 有 重复 
元 素 的 值 ， 等 等 ， 即 使 数组 很 大 也 无 妨 。 
2.5.3.2 ”排名 . 

一 组 排列 ( 或 是 排名 ) 就 是 一 组 Y 个 整 Te // 各 说 a. length > 0 
数 的 数组 ， 其 中 0 到 N-1 的 每 个 数 都 只 出 现 for (int i = 1; i < a.length; i++) 

一 次 。 两 个 排列 之 间 的 Kendall tau 距离 就 是 on ena a 

在 两 组 数列 中 顺序 不 同 的 数 对 的 数目 。 例 如 ， 

0316254 和 1036425 之 间 的 Kendall tau 统计 a[] 中 不 重复 元 素 的 个 数 

距离 是 4， 因 为 0-1、3-1、2-4、5-4 这 4 对 数 

字 在 两 组 排列 中 的 相对 顺序 不 同 ， 但 其 他 数字 的 相对 顺序 都 是 相同 的 。 这 种 统计 方法 的 应 用 十 分 广 
泛 。 在 社会 学 中 它 被 用 于 研究 社会 选择 和 投票 理论 ， 在 分 子 生 物 学 中 被 用 于 使 用 基因 表达 图 谱 比 较 
基因 ， 在 网 络 中 被 用 于 搜索 引擎 结果 的 排名 ， 等 等 。 某 个 排列 和 标准 排列 〈 即 每 个 元 素 都 在 正确 位 
置 上 的 排列 ) 的 Kendall tau 距离 就 是 其 中 逆序 数 对 的 数量 。 根 据 插 入 排序 设计 一 个 平方 级 别 的 算法 
来 计算 它 并 不 困难 (请 回想 2.1 节 中 的 命题 C ) 。 高 效 地 计算 Kendall tau 距离 可 以 留 给 已 经 熟悉 那 
些 经 典 的 排序 算法 的 程序 员 (或 者 学 生 ) 作为 一 个 有 趣 的 练习 〈 请 见 练习 2.5.19 ) 。 

2.5.3.3 ”优先 队列 

在 2.4 节 中 我 们 已 经 见 过 两 个 被 归 约 为 优先 队列 操作 的 问题 的 例子 。 一 个 是 2.4.2.1 节 中 的 
TopM， 它 能 够 找到 输入 流 中 M 个 最 大 的 元 素 ; 另 一 个 是 2.4.4.7 节 中 的 Multiway， 它 能 够 将 M 个 
输入 流 归 并 为 一 个 有 序 的 输出 流 。 这 两 个 问题 都 可 以 轻易 用 长 度 为 M 的 优先 队列 解决 。 
2.5.3.4 ”中 位 数 与 顺序 统计 

一 个 和 排序 有 关 但 又 不 需要 完全 排序 的 重要 应 用 就 是 找 出 一 组 元 素 的 中 位 数 (中 间 值 ， 它 不 大 
于 一 半 的 元 素 又 不 小 于 另 一 半 元 素 ) 。 查 找 中 位 数 在 统计 学 计算 和 许多 数据 处 理 的 应 用 程序 中 都 很 
常见 。 它 是 一 种 特殊 的 选择 : 找到 一 组 数 中 的 第 小 的 元 素 ( 如 下 页 代码 所 示 ) 。“ 选 择 ” 在 处 理 
实验 数据 和 其 他 数据 中 应 用 广泛 ， 使 用 中 位 数 和 其 他 顺序 统计 来 切 分 一 个 数组 也 很 常见 。 一 般 , 我 
们 只 需要 处 理 一 个 很 大 的 数组 中 的 一 小 部 分 ,在 这 种 情况 下 ， 一 个 程序 可 以 选择 ， 比 如 将 前 10% 的 
元 素 完 全 排序 即 可 。2.4 节 中 我 们 的 TopM 用 优先 队列 为 无 界限 输入 解决 了 这 个 问题 。 除 了 TopM， 
另 一 种 选择 是 直接 将 数组 中 的 元 素 排序 。 在 调用 Quick.sort(a) 之 后 ， 数 组 中 的 上 个 最 小 的 元 素 
就 是 数组 的 前 大 个 元 素 ， 其 中 大 小 于 数组 长 度 。 但 这 种 方法 需要 调用 排序 ， 所 以 运行 时 间 的 增长 数 


量 级 是 线性 对 数 的 。 
还 有 更 好 的 办 法 吗 ? 当 k 很 小 或 者 很 大 时 
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public static Comparable 
select(Comparable[] a, int k) 


找 出 数组 中 的 个 最 小 值 都 很 简单 , 但 当 k 和 数 
组 大 小 成 一 定 比例 时 这 个 任务 就 变 得 比较 困难 
了 ， 比 如 找到 中 位 数 ( 且 N/2) 。 让 人 惊讶 的 是 
其 实 上 面 的 select() 方法 能 够 在 线性 时 间 内 解 int j = partition(a，1o，hi); 
决 这 个 问题 ( 这 个 实现 需要 在 用 例 中 进行 类 型 转 el Pm 全 rp ht 
换 ; 去 掉 这 个 限制 的 代码 请 见 本 书 的 网 站 ) 。 else if (j < lo =j+ 1; 
为 了 完成 这 个 任务 ，select() 用 两 个 变量 hi pda 
和 1o 来 限制 含有 要 选择 的 元 素 的 子 数组 ， 并 } 
用 快速 排序 的 切 分 法 来 缩小 子 数 组 的 范围 。 请 
回想 partition() 方法 ， 它 会 将 数组 的 a[1o] 找到 一 组 数 中 的 第 小 元 素 
至 a[hi] 重新 排列 并 返回 一 个 整数 j 使 得 a[1lo..j-1] 小 于 等 于 a[j] 且 a[j+1..hi] 大 于 等 
于 a[j]。 那 么 ， 如 果 k = j， 问题 就 解决 了 。 如 果 k < j， 我 们 就 需要 切 分 左 子 数组 ( 令 hi = 
j-1) ; 如 果 k > j， 我们 则 需要 切 分 右 子 数组 ( 令 1o = j+1)。 这 个 循环 保证 了 数组 中 1o 左 
边 的 元 素 都 小 于 等 于 a[1o. .hi] ， 而 hi 右边 的 元 素 都 大 于 等 于 a[1o. .hi]。 我 们 不 断 地 切 分 直 
到 子 数组 中 只 含有 第 个 元 素 ， 此 时 a[k] 含有 最 小 的 (K+1 ) 个 元 素 ，a[0] 到 a[k-1] 都 小 于 等 
于 a[k]， 而 a[k+1] 及 其 后 的 元 素 都 大 于 等 于 a[k] 。 至 于 为 何 这 个 算法 是 线性 级 别 的 ， 是 因为 
假设 每 次 都 正好 将 数组 二 分 ， 那么 比较 的 总 次 数 为 (N+N/2+N/4+N/8… ) ， 直 到 找到 第 的 元 素 ， 
这 个 和 显然 小 于 2N。 和 快速 排序 一 样 ， 这 里 也 需要 一 点 数学 知识 来 得 到 比较 的 上 界 ， 它 比 快速 排 
序 略 高 。 这 个 算法 和 快速 排序 的 男 一 个 共同 点 是 这 段 分 析 依 赖 于 使 用 随机 的 切 分 元 素 ， 因 此 它 的 
性 能 保证 也 来 自 于 概率 。 

用 快速 排序 的 切 分 来 查找 中 位 数 的 可 视 轨 迹 如 图 2.5.2 所 示 。 


StdRandom. shuffle(a); 

int lo = 0, hi = a.length - 1; 
while (hi > 10) 

于 


命题 U。 平 均 来 说 ， 基 于 切 分 的 选择 算法 的 运行 时 间 是 线性 级 别 的 。 


证 明 。 该 命题 的 分 析 和 快速 排序 的 命题 KK 的 证 明 类 似 ， 但 要 复杂 得 多 。 结 论 就 是 算法 的 平均 比 
较 次 数 为 ~2N+2kln(N/K)+2CN-JIn(CN/(N-h))， 这 对 于 所 有 合法 的 大 值 都 是 线性 的 。 例 如 ， 这 个 
公式 说 明 找 到 中 位 数 (k=N12) 平均 需要 ~(2+2In2)N 次 比较 。 注 意 ， 最 坏 的 情况 下 算法 的 运行 时 
间 仍 然 是 平方 级 别 的 ， 但 与 快速 排序 一 样 ， 将 数组 乱 序 化 可 以 有 效 防止 这 种 情况 出 现 。 


设计 一 个 能 够 保证 在 最 坏 情 况 下 也 只 需要 线性 比较 次 数 的 算法 是 计算 复杂 性 领域 的 一 个 经 典 问 
题 ， 但 到 目前 为 止 仍 然 没有 一 个 能 够 实用 的 算法 。 


2.5.4 ”排序 应 用 一 览 

排序 的 直接 应 用 极为 普遍 和 广泛 ， 无 法 一 一 列举 。 你 可 以 将 歌曲 按照 曲名 或 是 歌手 排序 ， 将 邮 
件 按照 时 间或 是 发 件 人 排序 (或 者 来 电 按照 时 间或 来 电 者 排序 ) ， 将 照片 按照 日 期 排序 。 大 学 会 将 
学 生 的 账户 按照 姓名 或 是 ID 排序 。 信 用 卡 公司 会 将 上 百 万 甚至 上 亿 的 交易 按照 日 期 或 是 金额 排序 。 
科学 家 会 将 实验 数据 按照 时 间或 其 他 标准 排序 来 精确 地 模拟 现实 世界 ， 从 粒子 或 者 天 体 的 运动 ， 到 
物质 的 结构 ， 到 社会 中 的 人 际 关 系 。 实 际 上 ， 很 难 找到 和 排序 无 关 的 任何 计算 性 应 用 ! 为 了 更 好 地 
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说 明 这 一 点 ， 我 们 在 这 一 小 节 中 举 几 个 比 应 用 归 约 更 加 复杂 
的 例子 其 中 几 个 我 们 会 在 本 书 的 其 他 音节 更 加 详细 地 研究 。 下 


2.5.4.1 商业 计算 

世界 已 经 被 信息 的 海洋 所 淹没 。 政 府 组 织 、 金 融 机 构 和 商 本 
业 公 司 都 依赖 排序 来 管理 大 量 的 信息 。 无 论 这 些 信息 是 按照 名 
字 或 者 数字 排序 的 账号 、 按 照 日 期 或 者 金额 排序 的 交易 、 按 照 和 
邮编 或 者 地 址 排序 的 邮件 、 按 照 名 称 或 者 日 期 排序 的 文件 等 ， 
处 理 这 些 数据 必然 需要 排序 算法 。 一 般 这 些 信息 都 会 存储 在 大 aaa an 
型 的 数据 库 里 ， 能 够 按照 多 个 键 排序 以 提高 搜索 效率 。 一 个 普 





遍 使 用 的 有 效 方法 是 先 收集 新 的 信息 并 添加 到 数据 库 ， 将 其 按 moot hl 
感 兴趣 的 键 排序 ， 然 后 将 每 个 键 的 排序 结果 归并 到 已 存在 的 数据 1o 和 
库 中 。 从 计算 机 发 明 的 早期 开始 ， 我 们 学 习 过 的 这 些 方法 就 已 经 pmpilln 
被 用 来 构建 庞大 的 基础 数据 ， 处 理 它们 的 方法 则 是 所 有 这 些 商业 
活动 的 基石 。 今 天 ， 我 们 能 够 按部就班 地 处 理 上 百 万 甚至 上 亿 大 人 
小 的 数组 一 一 没有 线性 对 数 级 别 的 排序 算法 也 就 没 法 将 它们 排 
序 ， 进 一 步 处 理 这 些 数据 也 会 极端 困难 ， 甚 至 是 不 可 能 的 。 ll 
2.5.4.2 ”信息 搜索 中 位 数 
有 序 的 信息 确保 我 们 可 以 用 经 典 的 二 分 查找 法 ( 见 第 1 | 


章 ) 来 进行 高 效 的 搜索 。 你 会 看 到 许多 其 他 种 类 的 查询 也 可 
以 用 相同 的 方式 完成 。 有 多 少 元 素 小 于 给 定 的 元 素 ? 有 哪些 。 图 2.5.2 用 切 分 找 出 中 位 数 〈 另 见 
在 给 定 的 范围 之 内 ”在 第 3 章 中 我 们 不 但 会 解答 这 些 问题 ， 彩 揪 ) 
还 会 具体 学 习 排序 算法 和 二 分 查找 的 各 种 扩展 ， 使 得 我 们 能 够 用 删除 和 插入 的 混合 操作 解答 这 些 问 
题 ， 并 保证 所 有 操作 的 对 数 级 别 的 性 能 。 
2.5.4.3 ”运筹 学 

运筹 学 指 的 是 研究 数学 模型 并 将 其 应 用 于 问题 解决 和 决策 的 领域 。 在 本 书 中 我 们 会 看 到 若干 运 
筹 学 和 算法 研究 的 关系 的 例子 。 这 里 我 们 先 来 看 排序 算法 在 运筹 学 的 经 典 问题 一 调度 中 的 应 用 。 
假设 我 们 需要 完成 N 个 任务 ,第 /个 任务 需要 耗 时 4 秒 。 我 们 需要 在 完成 所 有 任务 的 同时 尽量 确保 
客户 满意 ， 将 每 个 任务 的 平均 完成 时 间 最 小 化 。 按 照 最 短 优先 的 原则 ， 只 要 我 们 将 任务 按照 处 理 时 
间 升 序 排列 就 可 以 达到 目标 。 因 此 我 们 可 以 将 任务 按照 耗 时 排序 ， 或 是 将 它们 插入 到 一 个 最 小 优先 
队列 中 。 如 果 加 上 其 他 各 种 限制 ， 我 们 可 以 得 到 不 同 的 调度 问题 ， 这 在 工业 界 的 应 用 中 很 常见 ， 也 
被 很 好 地 研究 过 。 另 一 个 例子 是 负载 均衡 问题 。 假 设 我 们 有 M 个 相同 的 处 理 器 以 及 N 个 任务 ,我 
们 的 目标 是 用 尽 可 能 短 的 时 间 在 这 些 处 理 器 上 完成 所 有 的 任务 。 这 个 问题 是 NP- 困难 的 ( 请 见 第 6 
章 ) ， 因 此 我 们 实际 上 不 可 能 算出 一 种 最 优 的 方案 。 但 一 种 较 优 调度 方法 是 最 大 优先 。 我 们 将 任务 
按照 耗 时 降序 排列 ， 将 每 个 任务 依次 分 配给 当前 可 用 的 处 理 器 。 要 实现 这 种 算法 ， 我 们 先 要 逆序 排 
列 这 些 任务 ， 然 后 为 M 个 处 理 器 维护 一 个 优先 队列 ， 每 个 元 素 的 优先 级 就 是 对 应 的 处 理 器 上 运行 
的 任务 的 耗 时 之 和 。 每 一 步 中 ,我们 都 删 去 优先 级 最 低 的 那个 处 理 器 ， 将 下 一 个 任务 分 配给 这 个 处 
理 器 ， 然 后 再 将 它 重新 插入 优先 队列 。 
2.5.4.4 ”事件 驱动 模拟 

很 多 科学 上 的 应 用 都 涉及 模拟 ， 用 大 量 计 算 来 将 现实 世界 的 某 个 方面 建 模 以 期 能 够 更 好 地 理解 
它 。 在 计算 机 发 明之 前 ， 科 学 家 们 除了 构建 数学 模型 之 外 别 无 选择 ， 而 现在 计算 机 模型 很 好 地 补充 
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了 这 些 数学 模型 。 逼 真 地 模拟 现实 世界 是 很 有 挑战 的 ， 而 使 用 正确 的 算法 使 得 我 们 能 够 在 有 限 的 时 
间 内 完成 这 些 模拟 ， 而 不 是 无 奈 地 接受 不 精确 的 实验 结果 或 是 无 尽 地 等 待 计算 的 完成 。 我 们 会 在 第 
6 章 中 展示 能 够 说 明 这 一 点 的 一 个 具体 例子 。 
2.5.4.5 ”数值 计算 
在 科学 计算 中 ， 精 确 度 非常 重要 (我们 距离 真正 的 答案 有 多 远 ) ， 特 别 是 当 我 们 在 计算 机 中 使 
用 的 只 是 真正 的 实数 的 近似 值 一 一 浮 点 数 来 进行 上 百 万 次 计算 的 时 候 。 一 些 数值 计算 算法 使 用 优先 
队列 和 排序 来 控制 计算 中 的 精确 度 。 例 如 ， 在 求 曲 线 下 区 域 的 面积 时 ， 数 值 积分 的 一 个 方法 就 是 使 “ [345 
用 一 个 优先 队列 存储 一 组 小 间隔 中 每 段 的 近似 精确 度 。 积 分 的 过 程 就 是 删 去 精确 度 最 低 的 间隔 并 将 
其 分 为 两 半 ( 这 样 两 半 都 能 变 得 更 加 精确 ) ， 然 后 将 两 半 都 重新 加 入 优先 队列 。 如 此 这 般 ， 直 到 达 
到 预期 的 精确 程度 。 
2.5.4.6 ”组合 搜索 
人 工 智能 领域 一 个 解决 “疑难 杂 症 ”的 经 典范 式 就 是 定义 一 组 状态 、 由 一 组 状态 演化 到 另 一 组 
状态 可 能 的 步骤 以 及 每 个 步骤 的 优先 级 ， 然 后 定义 一 个 起 始 状态 和 目标 状态 ( 也 就 是 问题 的 解决 办 
法 ) 。 著 名 的 A* 算法 的 解决 办 法 就 是 将 起 始 状态 放 入 优先 队列 中 ， 然 后 重复 下 面 的 方法 直到 到 达 
目的 地 : 删 去 优先 级 最 高 的 状态 ， 然 后 将 能 够 从 该 状态 在 一 步 之 内 达到 的 所 有 状态 全 部 加 入 优先 队 
列 (除了 刚刚 删 去 的 那个 状态 之 外 ) 。 和 事件 驱动 模拟 一 样 ， 这 个 过 程 简直 就 是 为 优先 队列 量 身 定 
做 的 。 它 将 问题 的 解决 转化 为 了 定义 一 个 适当 的 优先 级 函数 问题 。 例 子 请 见 练习 2.5.32。 
除了 这 些 直接 应 用 之 外 (我 们 只 说 了 很 小 的 一 部 分 而 已 ) ， 排 序 和 优先 队列 在 算法 设计 领域 也 
是 很 重要 的 抽象 概念 ， 因 此 本 书 会 经 常用 到 它们 。 下 面 我 们 举 了 一 些 本 书后 续 内 容 中 的 应 用 作为 例 
子 ， 它 们 都 依赖 于 本 音 中 的 排序 算法 和 优先 队列 数据 类 型 的 高 效 实现 。 
口 Prim 算法 和 Dijkstra 算法 
它们 都 是 第 4 章 中 的 经 典 算法 。 第 4 章 的 主题 是 图 的 处 理 算法 ， 图 是 由 结 点 和 连接 两 个 结 点 的 
边 组 成 的 一 种 重要 的 基础 模型 。 图 算法 的 基石 就 是 图 的 搜索 ， 也 就 是 一 个 结 点 一 个 结 点 地 查找 , 优 [350 
先 队列 在 其 中 扮演 了 重要 的 角色 。 
口 Kruskal 算法 
这 是 图 中 的 加 权 图 的 另 一 个 经 典 算法 ， 其 中 边 的 处 理 顺 序 取决 于 它 的 权重 。 算 法 的 运行 时 间 是 
由 排序 所 需 的 时 间 决 定 的 。 
口 霍 夫 曼 压 缩 
这 是 一 个 经 典 的 数据 压缩 算法 。 它 处 理 的 数据 中 的 每 个 元 素 都 有 一 个 小 整数 作为 权重 ， 而 处 理 
的 过 程 就 是 将 权重 最 小 的 两 个 元 素 归并 成 一 个 新 元 素 ， 并 将 其 权重 相 加 得 到 新 元 素 的 权重 。 使 用 优 
先 队列 可 以 立即 实现 这 个 算法 。 其 他 几 种 数据 压缩 算法 也 是 基于 排序 的 。 
口 字符 串 处 理 
字符 串 处 理 算法 在 现代 密码 学 和 基因 组 学 中 起 着 关键 性 的 作用 。 它 们 也 常常 依赖 于 排序 算法 (一 
般 都 会 使 用 第 5 章 中 所 讨论 的 特殊 的 字符 串 排序 算法 ) 。 例 如 ， 在 第 6 章 中 我 们 在 学 习 找 出 给 定 字 
符 串 中 的 最 长 重复 子 字符 囊 算法 时 会 先 将 字符 串 的 后 级 排序 。 23 


图 符 颖 


问 ”Java 的 系统 库 中 有 优先 队列 这 种 数据 类 型 吗 ? 
答 有 ,请 见 java.uti1.PriorityQueue。 


图 练习 
2.5.1 在 下 面 这 段 String 类 型 的 compareTo() 方法 的 实现 中 ， 第 三 行 对 提高 运行 效率 有 何 帮助 ? 


public int compareTo(String that) 
{ 
if Cthis == that) return 03 /7 这 一 行 
int n = Math.min(this.length(), that.lengthO)); 
for (int 1 = 0; i < ni i++) 
{ 
bh (this.charAt(i) < that.charAt(i)) return -1; 


else if (this.charAt(i) > that.charAt(i)) return +1; 


3 
return this.length() - that.length() ; 


} 

2.5.2 ”编写 一 段 程序 ， 从 标准 输入 读 入 一 列 单词 并 打印 出 其 中 所 有 由 两 个 单词 组 成 的 组 合 词 。 例 如 ， 如 
果 输 入 的 单词 为 after、thought 和 afterthought， 那 么 afterthought 就 是 一 个 组 合 词 。 

2.5.3” 找 出 下 面 这 段 账 户 余额 Balance 类 的 实现 代码 的 错误 。 为 什么 compareTo() 方法 对 Comparable 


接口 的 实现 有 缺陷 ? 
public class Balance implements Comparable<Balance> 
和. 
be double amount; 
public int compareTo(Balance that) 
{ 
if (this.amount < that.amount - 0.005) return 输入 DJIA 每 天 的 成 交 量 
-1; 1-0ct-28 3500000 
if (this.amount > that.amount + 0.005) return 2-0ct-28 3850000 
+1; 3-0ct-28 4060000 
s Te 4-0ct-28 4330000 
- 5-Oct-28 4360000 
} ei 
y pe ~ 30-Dec-99 554680000 
日 修正 这 个 
wa 31-Dec-99 。 374049984 
2.5.4 实现 一 个 方法 String[] dedup(String[] al)， 返 回 一 个 3-Jan-00 931800000 
有 序 的 a[] ， 并 删 去 其 中 的 重复 元 素 。 4-Jan-00 1009000000 
y . y 5-Jan-00 1085500032 
2.5.5 说 明 为 何 选择 排序 是 不 稳定 的 。 型 
2.5.6 ”用 递归 实现 select()。 输出 
2.5.7 用 select() 找 出 NN 个 元 素 中 的 最 小 值 平均 大 约 需 要 多 少 19-Aug-40 130000 
次 比较 ? 26-Aug-40 160000 
2.5.8 编写 一 段 程序 Frequency， 从 标准 输入 读 取 一 列 字 符 串 并 nh 
按照 字符 串 出 现 频率 由 高 到 低 的 顺序 打印 出 每 个 字符 串 及 23-Jun-42 210000 
其 出 现 次 数 。 A 
二 23-Jul-02 2441019904 
| 写 三 个 J 
2.5.9 为 将 右 侧 所 示 的 数据 排序 编写 一 人 新 的 数据 类 型 。 i ead 
2.5.10 创建 一 个 数据 类 型 Version 来 表示 软件 的 版 本 ， 例 如 15-Ju1-02 2574799872 
115.1.1、115.10.1、115.10.2。 为 它 实现 Comparable 接口 ， 19-]U1-02 2654099968 


24-]u1-02 2775559936 
其 中 115.1.1 的 版 本 低 于 115.10.1。 
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2.5.11 ”描述 排序 结果 的 一 种 方法 是 创建 一 个 保存 0 到 a.1ength-1 的 排列 p[] ， 使 得 p[i] 的 值 为 a[i 
元 素 的 最 终 位 置 。 用 这 种 方法 描述 插入 排序 、 选 择 排序 、 希 尔 排序 、 归 并 排序 、 快 速 排 序 和 堆 排 “|353 
序 对 一 个 含有 7 个 相同 元 素 的 数组 的 排序 结果 。 354 


图 提高 是 


2.5.12 调度。 编写 一 段 程序 SPTjava， 从 标准 输入 中 读 取 任务 的 名 称 和 所 需 的 运行 时 间 ， 用 2.5.4.3 节 
所 述 的 最 短处 理 时 间 优先 的 原则 打印 出 一 份 调度 计划 ， 使 得 任务 完成 的 平均 时 间 最 小 。 

2.5.13 负载 均衡 。 编 写 一 段 程序 LPTjava， 接 受 一 个 整数 M 作为 命令 行 参数 ， 从 标准 输入 中 读 取 任务 的 
名 称 和 所 需 的 运行 时 间 ， 用 2.5.4.3 节 所 述 的 最 长 处 理 时 间 优 先 原则 打印 出 一 份 调度 计划 ， 将 所 
有 任务 分 配给 M 个 处 理 器 并 使 得 所 有 任务 完成 所 需 的 总 时 间 最 少 。 

2.5.14 逆 域 名 排序 。 为 域名 编写 一 个 数据 类 型 Domain 并 为 它 实 现 一 个 compareTo() 方法 ,使 之 能 够 
按照 逆向 的 域名 排序 。 例 如 ， 域 名 cs.princeton.edu 的 逆 是 edu.princeton.cs。 这 在 网 络 日 志 处 理 时 
很 用。 提示 : 使 用 s.splitC""\.") 将 域名 用 点 分 为 若干 部 分 。 编 写 一 个 Domain 的 用 例 ， 从 
标准 输入 读 取 域 名 并 将 它们 按照 逆 域 名 有 序 地 打印 出 来 。 

2.5.15 垃圾 邮件 大 战 。 在 非法 垃圾 邮件 之 战 的 伊始 ， 你 有 一 大 串 来 自 各 个 域名 (也 就 是 电子 邮件 地 址 
中 @ 符号 后 面 的 部 分 ) 的 电子 邮件 地 址 。 为 了 更 好 地 伪造 回信 地 址 ， 你 应 该 总 是 从 相同 的 域 中 
向 目标 用 户 发 送 邮 件 。 例 如 ， 从 wayne@cs.princeton.edu 向 rs@cs.princeton.edu 发 送 垃圾 邮件 就 
很 不 错 。 你 会 如 何 处 理 这 份 电子 邮件 列表 来 高 效 地 完成 这 个 任务 呢 ? 

2.5.16 ”公正 的 选举 。 为 了 避免 对 名 字 排 在 字母 表 靠 后 的 候选 人 的 偏见 ， 加 州 在 2003 年 的 州长 选举 中 将 
所 有 候选 人 按照 以 下 字母 顺序 排列 : 
RWQOJMVAHBSGZXNTCIEKUPDYFL 
创建 一 个 遵守 这 种 顺序 的 数据 类 型 并 编写 一 个 用 例 Califomia， 在 它 的 静态 方法 main() 中 将 字符 
串 按照 这 种 方式 排序 。 假 设 所 有 字符 串 全 部 都 是 大 写 的 。 

2.5.17 检测 稳定 性 。 扩 展 练习 2.1.16 中 的 check 0) 方法 ， 对 指定 数组 调用 sort() ， 如 果 排 序 结果 是 稳 
定 的 则 返回 true， 否 则 返回 false。 不 要 假设 sort() 只 会 使 用 exch() 移动 数据 。 355 

2.5.18 ”强制 稳定 。 编 写 一段 能 够 将 任意 排序 方法 变 得 稳定 的 封装 代码 ,创建 一 种 新 的 数据 类 型 作为 键 ， 
将 键 的 原始 索引 保存 在 其 中 ， 并 在 调用 sort0Q 之 后 再 根据 保存 的 索引 恢复 键 的 原始 顺序 。 

2.5.19 Kendall tau 距离 。 编 写 一 段 程序 KendallTaujava， 在 线性 对 数 时 间 内 计算 两 组 排列 之 间 的 
Kendall tau 距离 。 

2.5.20 ”空闲 时 间 。 假设 有 一 台 计 算 机 能 够 并 行 处 理 NN 个 任务 。 编 写 一 段 程序 并 给 定 一 系列 任务 的 起 始 
时 间 和 结束 时 间 ， 找 出 这 人 台 机 器 最 长 的 空闲 时 间 和 最 长 的 繁忙 时 间 。 

2.5.21 多 维 排序 。 编 写 一 个 Vector 数据 类 型 并 将 q 维 整 型 向 量 排序 。 排 序 方法 是 先 按 照 一 维 数字 排序 ， 
一 维 数字 相同 的 向 量 则 按照 二 维 数字 排序 ， 再 相同 的 向 量 则 按照 三 维 数字 排序 ， 如 此 这 般 。 

2.5.22 股票 交易 。 投 资 者 对 一 只 股票 的 买卖 交易 都 发 布 在 电子 交易 市 场 中 。 他 们 会 指定 最 高 买 人 价 和 
最 低 卖 出 价 ， 以 及 在 该 价位 买卖 的 笔 数 。 编 写 一 段 程序 ， 用 优先 队列 来 匹配 买 家 和 卖家 并 用 模 
拟 数据 进行 测试 。 可 以 使 用 两 个 优先 队列 ， 一 个 用 于 买 家 一 个 用 于 卖家 ， 当 一 方 的 报价 能 够 和 
另 一 方 的 一 份 或 多 份 报价 匹配 时 就 进行 交易 。 

2.5.23 选择 的 取样 : 实验 使 用 取样 来 改进 select() 函数 的 想法 。 提 示 : 使 用 中 位 数 可 能 并 不 总 是 有 效 。 
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2.5.24 
2.5.25 


2.5.26 


.9027 


2.5.28 


2.5;29 


2.5.30 


稳定 的 优先 队列 。 实 现 一 个 稳定 的 优先 队列 ( 将 重复 的 元 素 按照 它们 被 插入 的 顺序 返回 ) 
平面 上 的 点 。 为 表 1.2.3 的 Point2D 类 型 编写 三 个 静态 的 比较 器 ， 一 个 按照 x 坐 标 比 较 ， 一 个 按 
照 了 坐标 比较 ， 一 个 按照 点 到 原点 的 距离 进行 比较 。 编 写 两 个 非 静态 的 比较 器 ， 一 个 按照 两 点 
到 第 三 点 的 距离 比较 ， 一 个 按照 两 点 相对 于 第 三 点 的 幅 角 比较 。 

简单 多 边 形 。 给 定 平面 上 的 个 点 ， 用 它们 画 出 一 个 多 边 形 。 提 示 : 找到 ?坐标 最 小 的 点 p， 
在 有 多 个 最 小 了 坐标 的 点 时 取 x 坐标 最 小 者 ， 然 后 将 其 他 点 按照 以 p 为 原点 的 幅 角 大 小 的 顺序 
平行 数组 的 排序 。 在 将 平行 数组 排序 时 ， 可 以 将 索引 排序 并 返回 一 个 index[] 数组 。 为 
Insertion 添加 一 个 indirectSort(0) 方法 ， 接 受 一 个 Comparable 的 对 象 数 组 a[] 作为 参 
数 ， 但 它 不 会 将 a[] 中 的 元 素 重新 排列 ， 而 是 返回 一 个 整形 数组 index[] 使 得 a[index[0]] 到 
a[index[N-1]] 正好 是 升序 的 。 

按 文件 名 排序 。 编 写 一 个 FileSorter 程序 ， 从 命令 行 接受 一 个 目录 名 并 打印 出 按照 文件 名 排序 后 
的 所 有 文件 。 提 示 : 使 用 File 数据 类 型 。 

按 大 小 和 最 后 修改 日 期 将 文件 排序 。 为 File 数据 类 型 编写 比较 器 ， 使 之 能 够 将 文件 按照 大 小 、 
文件 名 或 最 后 修改 日 期 将 文件 升序 或 者 降序 排列 。 在 程序 LS 中 使 用 这 些 比 较 器 ， 它 接受 一 个 命 
令 行 参 数 并 根据 指定 的 顺序 列 出 目录 的 内 容 。 例 如 ，"-t" 指 按照 时 间 戳 排序 。 支 持 多 个 选项 以 
消除 排序 位 次 相同 者 ， 同 时 必须 确保 排序 的 稳定 性 。 

Boerner 定理 。 真 假 判 断 :， 如 果 你 先 将 一 个 矩阵 的 每 一 列 排序 ， 再 将 矩阵 的 每 一 行 排序 ， 所 有 的 
列 仍然 是 有 序 的 。 证 明 你 的 结论 。 


图 实验 是 


2.5.31 


2.5.32 


2.5.33 


重复 元 素 。 编 写 一 段 程序 ， 接 受命 令 行 参数 M、N 和 T， 然 后 使 用 正文 中 的 代码 进行 T 遍 实验 : 
生成 NN 个 0 到 M-1 间 的 int 值 并 计算 重复 值 的 个 数 。 令 人 10，N=10 、10”、10 和 10 以 及 
ME=N/2、N 和 2N。 根 据 概率 论 ， 重 复 值 的 个 数 应 该 约 为 (1-e")， 其 中 a=N/M。 打 印 一 张 表 格 
来 确认 你 的 实验 验证 了 这 个 公式 。 

8 字谜 题 。8 字谜 题 是 S. Ioyd 于 19 世纪 70 年 代 发 明 的 一 个 游戏 。 游戏 需要 一 个 三 乘 三 的 九宫 格 ， 
其 中 八 格 中 填 上 了 1 到 8 这 8 个 数字 ,一 格 空 着 。 你 的 目标 就 是 将 所 有 的 格子 排序 。 可 以 将 一 
个 格子 向 上 下 或 者 左右 移动 (但 不 能 是 对 角 线 方向 ) 到 空白 的 格子 中 。 编 写 一 个 程序 用 A* 算法 
解决 这 个 问题 。 先 用 到 达 九 宫 格 的 当前 位 置 所 需 的 步 数 加 上 错位 的 格子 数量 作为 优先 级 函数 ( 注 
意 ， 步 数 至 少 大 于 等 于 错位 的 格子 数 ) 。 尝 试用 其 他 函数 代替 错位 的 格子 数量 ， 比 如 每 个 格子 
距离 它 的 正确 位 置 的 曼哈顿 距离 ， 或 是 这 些 距 离 的 平方 之 和 。 

随机 交易 。 开 发 一 个 接受 参数 NN 的 生成 器 ， 根 据 你 能 想到 的 任意 假设 条 件 生成 NN 个 随机 的 
Transaction 对 象 ( 请 见 练习 2.1.21 和 练习 2.1.22 )。 对 于 N=10”、10*、10” 和 10, 比较 用 希 尔 排序 、 
归并 排序 、 快 速 排 序 和 堆 排 序 将 N 个 交易 排序 的 性 能 。 
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现代 计算 机 和 网 络 使 我 们 能 够 访问 海量 的 信息 。 高 效 检索 这 些 信 息 的 能 力 是 处 理 它们 的 重要 前 
提 。 本 章 描 述 的 都 是 数 十 年 来 在 广泛 应 用 中 经 过 实践 检验 的 经 典 查找 算法 。 没 有 这 些 算法 ,现代 信 
息 世 界 的 基础 计算 设施 都 无 从 谈 起 。 

我 们 会 使 用 符号 表 这 个 词 来 描述 一 张 抽象 的 表格 ， 我 们 会 将 信息 ( 值 ) 存储 在 其 中 ， 然 后 按照 
指定 的 键 来 搜索 并 获取 这 些 信息 。 键 和 值 的 具体 意义 取决 于 不 同 的 应 用 。 符 号 表 中 可 能 会 保存 很 多 
键 和 很 多 信息 ， 因 此 实现 一 张 高 效 的 符号 表 也 是 一 项 很 有 挑战 性 的 任务 。 

符号 表 有 时 被 称 为 字典 , 类 似 于 那 本 将 单词 的 释义 按照 字母 顺序 排列 起 来 的 历史 悠久 的 参考 书 。 
在 英语 字典 里 ， 键 就 是 单词 ， 值 就 是 单词 对 应 的 定义 、 发 音 和 词 源 。 符 号 表 有 时 又 叫做 索引 ， 即 书 
本 最 后 将 术语 按照 字母 顺序 列 出 以 方便 查找 的 那 部 分 。 在 一 本 书 的 索引 中 ， 键 就 是 术语 ， 而 值 就 是 
书 中 该 术语 出 现 的 所 有 页 码 。 

在 说 明了 基本 的 API 和 两 种 重要 的 实现 之 后 ， 我 们 会 学 习 用 三 种 经 典 的 数据 类 型 来 实现 高 效 的 
符号 表 : 二 又 查找 树 、 红 黑 树 和 散 列 表 。 在 总 结 中 我 们 会 看 到 它们 的 若干 扩展 和 应 用 ， 它 们 的 实现 
都 有 赖 于 我 们 在 本 章 中 将 会 学 到 的 高 效 算 法 。 
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3:1 符号 表 


符号 表 最 主要 的 目的 就 是 将 一 个 键 和 一 个 值 联系 起 来 。 用 例 能 够 将 一 个 键 值 对 插入 符号 表 并 希 
望 在 之 后 能 够 从 符号 表 的 所 有 键 值 对 中 按照 键 直接 找到 相对 应 的 值 。 本 章 会 讲解 多 种 构造 这 样 的 数 
据 结构 的 方法 ， 它 们 不 光 能 够 高 效 地 插入 和 查找 ， 还 可 以 进行 其 他 几 种 方便 的 操作 。 要 实现 符号 表 ， 
我 们 首先 要 定义 其 背后 的 数据 结构 ， 并 指明 创建 并 操作 这 种 数据 结构 以 实现 插入 、 查 找 等 操作 所 需 
的 算法 。 

查找 在 大 多 数 应 用 程序 中 都 至 关 重 要 ， 许 多 编程 环境 也 因此 将 符号 表 实 现 为 高 级 的 抽象 数据 结 
构 ， 包 括 Java 一 一 我 们 会 在 3.5 节 中 讨论 Java 的 符号 表 实现 。 表 3.1.1 给 出 的 例子 是 在 一 些 典 型 的 
应 用 场景 中 可 能 出 现 的 键 和 值 。 我 们 马上 会 看 到 一 些 参 考 性 的 用 例 ，3.5 节 的 目的 就 是 向 你 展示 如 
何在 程序 中 有 效 地 使 用 符号 表 。 本 书 中 我 们 还 会 在 其 他 算法 中 使 用 符号 表 。 





定义 。 符 号 表 是 一 种 存储 键 值 对 的 数据 结构 ,支持 两 种 操作 : 插入 (put) ， 即 将 一 组 新 的 键 值 
对 存 入 表 中 ; 查找 ( get) ， 即 根据 给 定 的 键 得 到 相应 的 值 。 


表 3.1.1 典型 的 符号 表 应 用 

















应 用 查找 的 目的 键 值 

字典 找 出 单词 的 释义 单词 释义 

图 书 索 引 找 出 相关 的 页 码 术语 一 串 页 码 

文件 共享 找到 歌曲 的 下 载 地 址 歌曲 名 计算 机 ID 

账户 管理 处 理 交 易 账户 号 码 交易 详情 

网 络 搜索 找 出 相关 网 页 关键 字 网 页 名 称 
362 编译 器 找 出 符号 的 类 型 和 值 变量 名 类 型 和 值 

3.1.1 API 


符号 表 是 一 种 典型 的 抽象 数据 类 型 ( 请 见 第 1 章 ) : 它 代表 着 一 组 定义 清晰 的 值 以 及 相应 的 操 
作 ， 使 得 我 们 能 够 将 类 型 的 实现 和 使 用 区 分 开 来 。 和 以 前 一 样 , 我们 要 用 应 用 程序 编程 接口 ( API ) 
来 精确 地 定义 这 些 操作 ( 如 表 3.1.2 所 示 ) ， 为 数据 类 型 的 实现 和 用 例 提 供 一 份 “契约 ”。 
表 3.1.2 一 种 简单 的 泛 型 符号 表 API 


public class ST<Key, Value> 





ST 创建 一 张 符 号 表 
void put(Key key, Value, val) 将 键 值 对 存 人 表 中 ( 若 值 为 空 则 将 键 key 从 表 中 删除 ) 
Value get(Key key) 获取 键 key 对 应 的 值 〈 若 键 key 不 存在 则 返回 nu11 ) 
void delete(Key key) 从 表 中 删 去 键 key ( 及 其 对 应 的 值 ) 
boolean contains(Key key) 键 key 在 表 中 是 否 有 对 应 的 值 
boolean isEmpty() 表 是 否 为 空 
int size() 表 中 的 键 值 对 数量 
Iterable<Key> keysO) 表 中 的 所 有 键 的 集合 


在 查看 用 例 代码 之 前 ， 为 了 保证 代码 的 一 致 、 简 洁 和 实用 ， 我 们 要 先 说 明 具 体 实现 中 的 几 个 设 
计 决 策 。 
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3.1.1.1 泛 型 

和 排序 一 样 ， 在 设计 方法 时 我 们 没有 指定 处 理 对 象 的 类 型 ， 而 是 使 用 了 泛 型 。 对 于 符号 表 ， 我 
们 通过 明确 地 指定 查找 时 键 和 值 的 类 型 来 区 分 它们 的 不 同 角 色 ， 而 不 是 像 2.4 节 的 优先 队列 那样 将 
键 和 元 素 本 身 混为一谈 。 在 考虑 了 这 份 基本 的 API 后 (例如 ， 这 里 没有 说 明 键 的 有 序 性 ) ， 我 们 会 
用 Comparable 的 对 象 来 扩展 典型 的 用 例 ， 这 也 会 为 数据 类 型 带 来 许多 新 的 方法 。 
3.1.1.2 ”重复 的 键 

我 们 的 所 有 实现 都 遵循 以 下 规则 : 

口 每 个 键 只 对 应 着 一 个 值 ( 表 中 不 允许 存在 重复 的 键 ) ; 

口 当 用 例 代码 向 表 中 存 入 的 键 值 对 和 表 中 已 有 的 键 ( 及 关联 的 值 ) 冲突 时 , 新 的 值 会 替代 旧 的 值 。 

这 些 规则 定义 了 关联 数组 的 抽象 形式 。 你 可 以 将 符号 表 想 象 成 一 个 数组 ， 键 即 索 引 ， 值 即 数 
组 的 元 素 。 在 一 个 一 般 的 数组 中 ， 键 就 是 整 型 的 索引 ， 我 们 用 它 来 快速 访问 数组 的 内 容 ; 在 一 个 
关联 数组 (符号 表 ) 中 ， 键 可 以 是 任意 类 型 ， 但 我 们 仍然 可 以 用 它 来 快速 访问 数组 的 内 容 。 一 些 
编程 语言 ( 非 Java ) 直接 支持 程序 员 使 用 st[key] 来 代替 st.get(key)，st[key]=val 来 代替 
st.put(key，val)， 其 中 key ( 键 ) 和 val ( 值 ) 都 可 以 是 任意 类 型 的 对 象 。 
3.1.1.3 空 Cnull) 键 

键 不 能 为 空 。 和 Java 中 的 许多 其 他 机 制 一 样 ， 使 用 空 键 会 产生 一 个 运行 时 异常 〈 请 见 本 节 答 疑 
的 第 三 条 ) 。 
3.1.1.4 空 (null) 值 

我 们 还 规定 不 允许 有 空 值 。 这 个 规定 的 直接 原因 是 在 我 们 的 API 定义 中 ， 当 键 不 存在 时 getO) 
方法 会 返回 空 , 这 也 意味 着 任何 不 在 表 中 的 键 关联 的 值 都 是 空 。 这 个 规定 产生 了 两 个 ( 我 们 所 期 望 的 ) 
结果 : 第 一 ， 我们 可 以 用 get 0) 方法 是 否 返 回 空 来 测试 给 定 的 键 是 否 存 在 于 符号 表 中 ; 第 二 ， 我 们 
可 以 将 空 值 作为 putQ 〇 方法 的 第 二 个 参数 存 人 表 中 来 实现 删除 ， 也 就 是 3.1.1.5 节 的 主要 内 容 。 
3.1.1.5 ”删除 操作 

在 符号 表 中 ， 删 除 的 实现 可 以 有 两 种 方法 : 延 时 删除 ， 也 就 是 将 键 对 应 的 值 置 为 空 ， 然 后 在 
某 个 时 候 删 去 所 有 值 为 空 的 键 ; 或 是 即时 删除 ， 也 就 是 立刻 从 表 中 删除 指定 的 键 。 刚 才 已 经 说 过 ， 
put(key，nul11) 是 delete(key) 的 一 种 简单 的 ( 延 时 型 ) 实现 。 而 实现 ( 即时 型 ) delete() 
就 是 为 了 蔡 代 这 种 默认 的 方案 。 在 我 们 的 符号 表 实 现 中 不 会 使 用 默认 的 方案 ， 而 在 本 书 的 网 站 上 
put() 实现 的 开头 有 这 样 一 名 防御 性 代码 : 

if (val == null) { delete(key); return; } 

这 保证 了 符号 表 中 任何 键 的 值 都 不 为 空 。 为 了 节省 版 面 我 们 没有 在 本 书 中 附 上 这 段 代码 (我们 
也 不 会 在 调用 put( 时 使 用 nu11 ) 。 
3.1.1.6 ”便捷 方法 

为 了 用 例 代码 的 清晰 ， 我 们 在 API 中 加 入 了 contains() 和 isEmpty(0) 方法 ， 它 们 的 实现 如 
表 3.1.3 所 示 ， 只 需要 一 行 。 


表 3.1.3 默认 实现 


方 法 默认 实现 
void delete(Key key) putCkey，nu11) ; 
boolean contains(key) return get(key) != null; 


boolean isEmpty() return size() == 
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为 节省 篇 幅 ， 我 们 不 想 重复 这 些 代 码 ， 但 我 们 约定 它们 存在 于 所 有 符号 表 API 的 实现 中 ， 用 例 


程序 可 以 自由 使 用 它们 。 


3.1.1.7 和 迭代 

为 了 方便 用 例 处 理 表 中 的 所 有 键 值 ， 我 们 有 时 会 在 API 的 第 一 行 加 上 implements Interable 
<Key> 这 句 话 ， 强 制 所 有 实现 都 必须 包含 iterator() 方法 来 返回 一 个 实现 了 hasNext() 和 
next () 方法 的 迭代 器 ， 如 1.3 节 的 栈 和 队列 所 述 。 但 是 对 于 符号 表 我 们 采用 了 一 个 更 简单 的 方法 。 
我 们 定义 了 keys 0) 方法 来 返回 一 个 Interable<Key> 对 象 以 方便 用 例 遍 历 所 有 的 键 。 这 么 做 是 为 
了 和 以 后 的 有 序 符号 表 的 所 有 方法 保持 一 致 ， 使 得 用 例 可 以 遍历 表 的 键 集 的 一 个 指定 的 部 分 。 
3.1.1.8” 键 的 等 价 性 

要 确定 一 个 给 定 的 键 是 否 存在 于 符号 表 中 ， 首 先 要 确立 对 象 等 价 性 的 概念 。 我 们 在 1.2.5.8 节 
深入 讨论 过 这 一 点 。 在 Java 中 ， 按 照 约定 所 有 的 对 象 都 继承 了 一 个 equals 0 方法 ，Java 也 为 它 
的 标准 数据 类 型 例如 Integer、Double 和 String 以 及 一 些 更 加 复杂 的 类 型 ， 如 File 和 URL， 实 
现 了 equals (0) 方法 一 一 当 使 用 这 些 数据 类 型 时 你 可 以 直接 使 用 内 置 的 实现 。 例 如 ， 如 果 x 和 y 都 
是 String 类 型 ， 当 且 仅 当 x 和 y 的 长 度 相同 且 每 个 位 置 上 的 字母 都 相同 时 ，x.equals(y) 返回 
true。 而 自 定义 的 键 则 需要 如 1.2 节 所 述 重 写 equals 0) 方法 。 你 可 以 参考 我 们 为 Date 类 型 (请 
见 1.2.5.8 节 ) 实现 的 equals 0) 方法 为 你 自己 的 数据 类 型 实现 equals 0) 方法 。 和 2.4.4.5 节 中 讨论 
的 优先 队列 一 样 ， 最 好 使 用 不 可 变 的 数据 类 型 作为 键 ， 和 否则 表 的 一 致 性 是 无 法 保证 的 。 


3.1.2 ”有 序 符号 表 

典型 的 应 用 程序 中 ， 键 都 是 Comparable 的 对 象 ， 因 此 可 以 使 用 a.compareTo(b) 来 比较 a 和 
b 两 个 键 。 许 多 符号 表 的 实现 都 利用 了 Comparable 接口 带 来 的 键 的 有 序 性 来 更 好 地 实现 put() 和 
get() 方法 。 更 重要 的 是 在 这 些 实现 中 ， 我 们 可 以 认为 符号 表 都 会 保持 键 的 有 序 并 大 大 扩展 它 的 
API， 根 据 键 的 相对 位 置 定义 更 多 实用 的 操作 。 例 如 ， 假 设 键 是 时 间 ， 你 可 能 会 对 最 时 的 或 是 最 晚 的 
键 或 是 给 定时 间 段 内 的 所 有 键 等 感 兴趣 。 在 大 多 数 情 况 下 用 实现 putQO 和 get0) 方法 背后 的 数据 结 
构 都 不 难 实现 这 些 操作 。 于 是 ， 对 于 Comparable 的 键 ， 在 本 章 中 我 们 实现 了 表 3.1.4 中 的 API。 


表 3.1.4 一 种 有 序 的 泛 型 符号 表 的 API 


public class ST<Key extends Comparable<key>, Value> 





STCY 创建 一 张 有 序 符号 表 
void put(Key key, Value, val) 将 键 值 对 存 人 表 中 ( 若 值 为 空 则 将 键 key 从 表 中 删除 ) 
Value get(Key key) 获取 键 key 对 应 的 值 ( 若 键 key 不 存在 则 返回 空 ) 
void delete(Key key) 从 表 中 删 去 键 key (及 其 对 应 的 值 ) 
boolean contains(Key key) 键 key 是 否 存 在 于 表 中 
boolean isEmpty() 表 是 否 为 空 
int size() 表 中 的 键 值 对 数量 
Key min() 最 小 的 键 
Key max(C) 最 大 的 键 
Key floor(Key key) 小 于 等 于 key 的 最 大 键 
Key ceiling(Key key) 大 于 等 于 key 的 最 小 键 
int rank(CKey key) 小 于 key 的 键 的 数量 


Key select(int k) 排名 为 k 的 键 
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( 续 ) 
public class ST<Key extends Comparable<key>, Value> 
void deleteMin() 删除 最 小 的 键 
void deleteMax() 删除 最 大 的 键 
int size(Key lo, Key hi) [lo. .hi] 之 间 键 的 数量 
Iterable<Key> keys(Key lo, Key hi) [1o. .hi] 之 间 的 所 有 键 ， 已 排序 
Iterable<Key> keysQ) 表 中 的 所 有 键 的 集合 ,已 排序 366 
只 要 你 见 到 类 的 声明 中 含有 泛 型 变量 Key extends Comparable<Key>， 那 就 说 明 这 段 程序 是 
在 实现 这 份 API， 其 中 的 代码 依赖 于 Comparable 的 键 并 且 实现 了 更 加 丰富 的 操作 。 上 面 所 有 这 些 
操作 一 起 为 用 例 定 义 了 一 个 有 序 符号 表 。 
3.1.2.1 最 大 键 和 最 小 键 
对 于 一 组 有 序 的 键 ， 最 自然 的 反应 就 是 查询 其 中 的 最 大 键 和 最 小 键 。 我 们 在 2.4 节 讨 论 优先 队 
列 时 已 经 过 到 过 这 些 操 作 。 在 有 序 符号 表 中 ， 我们 也 有 方法 删除 最 大 键 和 最 小 键 ( 以 及 它们 所 关联 
的 值 ) 。 有 了 这 些 ， 符 号 表 就 具有 了 类 似 于 2.4 节 中 IndexMinPQ0) 的 能 力 。 主 要 的 区 别 在 于 优先 
队列 中 可 以 存在 重复 的 键 但 符号 表 中 不 行 ， 而 且 有 序 符号 表 支 持 的 操作 更 多 。 
3.1.2.2 ”向 下 取 整 和 向 上 取 整 
对 于 给 定 的 键 , 向 下 取 整 ( floor ) 操 作 ( 找 出 小 于 等 于 该 键 的 最 大 键 ) 和 向 上 取 整 ( ceiling ) 操 作 ( 找 
出 大 于 等 于 该 键 的 最 小 键 ) 有 时 是 很 有 用 的 。 这 两 个 术语 来 自 于 实数 的 取 整 函数 ( 对 一 个 实数 x 向 
下 取 整 即 为 小 于 等 于 x 的 最 大 整数 ， 向 上 取 整 则 为 大 于 等 于 x 的 最 小 整数 ) 。 
3.1.2.3 ”排名 和 选择 
检验 一 个 新 的 键 是 否 插 入 合适 位 置 的 基 表 3.1.5 有 序 符号 表 的 操作 示例 
本 操作 是 排名 (rank， 找 出 小 于 指定 键 的 键 ne 
的 数量 ) 和 选择 ( select, 找 出 排名 为 的 键 ) 。 minO)— -09:00:00 Chicago 
要 测试 一 下 你 是 否 完全 理解 了 它们 的 作用 ， 09:00:03 Phoenix 
请 确认 对 于 0 到 sizeO-1 的 所 有 1i 都 有 te 0 hs 
i==rank(select(i))， 且 所 有 的 键 都 满足 09:01:10 Houston 
key==selectCrankCkey))。2.5 节 中 我 们 在 SR 
学 习 排序 时 已 经 过 到 过 对 这 两 种 操作 的 需求 select(7) 一 -09:10:25 Seattle 
了 。 对 于 符号 表 , 我 们 的 挑战 是 在 实现 插入 、 os 
删除 和 查找 的 同时 快速 实现 这 两 种 操作 。 09:19:46 Chicago 
有 序 符号 表 的 操作 示例 如 表 3.1.5 所 示 。 keys(09:15:00，09:25:00) 一 -~ i bm 367 
3.1.2.4 ”范围 查找 09:22:54 Seattle 
给 定 范围 内 ( 在 两 个 给 定 的 键 之 间 ) 有 cet1ing(09:30:00)—» 09:35:21 Chicaao 
多 少 键 ? 是 哪些 ?在 很 多 应 用 中 能 够 回答 这 09:36:14 Seattle 


些 问题 并 接受 两 个 参数 的 size() 和 keys0 NR A 


方法 都 很 有 用 ， 特 别 是 在 大 型 数据 库 中 。 能 。 “e369 Yo 
够 处 理 这 类 查询 是 有 序 符号 表 在 实践 中 被 广 
泛 应 用 的 重要 原因 之 一 。 
3.1.2.5 ”例外 情况 
当 一 个 方法 需要 返回 一 个 键 但 表 中 却 没有 合适 的 键 可 以 返回 时 ， 我 们 约定 抛 出 一 个 异常 ( 另 一 
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种 合理 的 方法 是 在 这 种 情况 下 返回 空 ) 。 例 如 ， 在 符号 表 为 空 时 , min()、max()、deleteMin()、 
deleteMax()、floor() 和 ceiling( 都 会 抛 出 异常 ， 当 k<0 或 k>=size0) 时 select(k) 也 会 抛 
出 异常 。 
3.1.2.6 ”便捷 方法 

在 基础 API 中 我 们 已 经 见 过 了 contains() 和 isEmpty0) 方法 ,为 了 用 例 的 清晰 我 们 又 在 API 
中 添加 了 一 些 宛 余 的 方法 。 为 了 节约 版 面 ， 除 非特 别 声明 ， 我 们 约定 所 有 有 序 符 号 表 API 的 实现 都 
含有 如 表 3.1.6 所 示 的 方法 。 


表 3.1.6 ”有 序 符 号 表 中 元 余 有 序 性 方法 的 默认 实现 


六 法 默认 的 实现 
void deleteMin() delete(Cmin(C)) ; 
void deleteMax() delete(max()); 
int size(Key 10, Key hi) if (hi.compareTo(l1o) < 0) 
return 0; 


else if (contains (hi)) 

return rank(hi) - rank(1lo) + 1; 
else 

return rank(hi) - rank(1o0); 


Iterable<Key> keys() return keys(min(), max()); 


3.1.2.7 ”再 谈 ) 键 的 等 价 性 

Java 的 一 条 最 佳 实践 就 是 维护 所 有 Comparable 类 型 中 compareTo() 方法 和 equals(0) 方法 的 
一 致 性 。 也 就 是 说 ,任何 一 种 Comparable 类 型 的 两 个 值 a 和 b 都 要 保证 (a.compareTo(b)==0) 
和 a.equals(b) 的 返回 值 相同 。 为 了 避免 任何 潜在 的 二 义 性 ， 我 们 不 会 在 有 序 符号 表 的 实现 中 使 
用 equals 〇 方法 。 作 为 替代 ， 我 们 只 会 使 用 compareTo0Q 方法 来 比较 两 个 键 ， 即 我 们 用 布尔 表达 
式 a.compareTo(b)==0 来 表示 “a 和 b 相等 吗 ? ”。 一 般 来 说 ， 这 样 的 比较 都 代表 着 在 符号 表 中 

368| “的 一 次 成 功 查找 (找到 了 b ) 。 和 排序 算法 一 样 ，Java 为 许多 经 常 作为 键 的 数据 类 型 提供 了 标准 的 

compareTo 0) 方法， 为 你 自 定义 的 数据 类 型 实现 一 个 compareTo() 方法 也 不 困难 (参见 2.5 节 ) 。 
3.1.2.8 ”成 本 模型 

无 论 我 们 是 使 用 equalsQ 〇 方法 (对 于 符号 表 的 键 不 是 Comparable 对 象 而 言 ) 还 是 
compareTo() 方法 (对 于 符号 表 的 键 是 Comparable 对 象 而 言 ) ， 我 们 使 用 比较 一 词 来 表示 将 一 个 
符号 表 条 目 和 一 个 被 查找 的 键 进行 比较 操作 。 在 大 多 数 的 符号 表 实现 中 , 这 个 操作 都 出 现在 内 循环 。 
在 少数 的 例外 中 ， 我 们 则 会 统计 数组 的 访问 次 数 。 


查找 的 成 本 模型 。 在 学 习 符 号 表 的 实现 时 ， 我 们 会 统计 比较 的 次 数 ( 等 价 性 测试 或 是 键 的 相 
互 比较 ) 。 在 内 循环 不 进行 比较 ( 极 少 ) 的 情况 下 ， 我们 会 统计 数组 的 访问 次 数 。 


符号 表 实现 的 重点 在 于 其 中 使 用 的 数据 结构 和 get() 、put 0) 方法 。 在 下 文中 我 们 不 会 总 是 给 
出 其 他 方法 的 实现 ， 因 为 将 它们 作为 练习 能 够 更 好 地 检验 你 对 实现 背后 的 数据 结构 的 理解 程度 。 为 
了 区 别 不 同 的 实现 ， 我 们 在 特定 的 符号 表 实现 的 类 名 前 加 上 了 描述 性 前 级 。 在 用 例 代码 中 ， 除 非 我 
们 想 使 用 一 个 特定 的 实现 ， 我 们 都 会 使 用 ST 表示 一 个 符号 表 实 现 。 在 本 章 和 其 他 章节 中 ， 经 过 学 
习 和 讨论 过 大 量 符号 表 的 使 用 和 实现 后 你 会 慢 慢 地 理解 这 些 API 的 设计 初衷 。 同 时 我 们 也 会 在 答疑 
B69] 和 练习 中 讨论 算法 设计 时 的 更 多 选择 。 
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3.1.3 ”用例 举例 

虽然 我 们 会 在 3.5 节 中 详细 说 明 符 号 表 的 更 多 应 用 ， 在 学 习 它 的 实现 之 前 我 们 还 是 应 该 先 看 看 
如 何 使 用 它 。 相 应 地 我 们 这 里 考察 两 个 用 例 : 一 个 用 来 跟踪 算法 在 小 规模 输入 下 的 行为 测试 用 例 ， 
和 一 个 用 来 寻找 更 高 效 的 实现 的 性 能 测试 用 例 。 
3.1.3.1 行为 测试 用 例 

为 了 在 小 规模 的 输入 下 跟踪 算法 的 行为 ， 我 们 用 以 下 测试 用 例 测试 我 们 对 符号 表 的 所 有 实现 。 
这 段 代码 会 从 标准 输入 接受 多 个 字符 串 ， 构 造 一 张 符号 表 来 将 i 和 第 i 个 字符 串 相关 联 ， 然 后 打印 
符号 表 。 在 本 书 中 我 们 假设 所 有 的 字符 串 都 只 有 一 个 字母 。 一 般 我 们 会 使 用 "S EA RCHEXA 
M P L E"。 按 照 我 们 的 约定 ， 用 例会 将 键 S 和 0, 键 R 和 3 关联 起 来 ， 等 等 。 但 E 的 值 是 12 (而 
非 1 或 者 6) ，A 的 值 为 8 (而 非 2 ) ， 因 为 我 们 的 关联 型 数组 意味 着 每 个 键 的 值 取决 于 最 近 一 次 
put() 方法 的 调用 。 对 于 符号 表 的 简单 实现 (无 序 ) ， 用 例 的 输出 中 键 的 顺序 是 不 确定 的 (这 和 具 
体 实现 有 关 ) ; 对 于 有 序 符号 表 ， 用 例 应 该 将 键 按 顺序 打印 出 来 。 这 是 一 种 索引 用 例 ， 它 是 我 们 将 
在 3.5 节 中 讨论 的 一 种 重要 的 符号 表 应 用 的 一 个 特殊 情况 。 

测试 用 例 的 实现 代码 如 下 所 示 。 测 试用 例 的 键 、 值 及 输出 如 图 3.1.1 所 示 。 


入 帮 商 民 区 人 E 基 和 人 :PE 
信和 六 0 1 12 
1 简单 符号 表 的 有 序 符号 
public static void main(String[] args) (一 种 可 能 的 ) 输出 。” 表 的 输出 
{ 
ST<String, Integer> st; LL 11 x ” 
st = new ST<String, Integer>(); P 10 
M 9 E ”2 
for (int i = 0; !StdIn.isEmpty(); i++) x 7 时 马 
{ 川 ” 芭 EE , 进 
String key = StdIn.readString() ; GE 河 M 9 
st.put(key, 1); R 3 P 10 
A 8 RR 对 
for (String s : st.keysO) E 12 外 区 
Stdout.println(s + " " + st.get(s)); S 0 XX 7 
3 
简单 的 符号 表 测 试用 例 图 3.1.1 测试 用 例 的 键 、 值 和 输出 370 


3.1.3.2 ”性 能 测试 用 例 

FrequencyCounter 用 例会 从 标准 输入 中 得 到 的 一 列 字符 串 并 记录 每 个 (长度 至 少 达到 指定 的 
国 值 ) 字符 串 的 出 现 次 数 ， 然 后 遍历 所 有 键 并 找 出 出 现 频 率 最 高 的 键 。 这 是 一 种 字典 ， 我们 会 在 3.5 
节 中 更 加 详细 地 讨论 这 种 应 用 。 这 个 用 例 回答 了 一 个 简单 的 问题 : 哪个 〈 不 小 于 指定 长 度 的 ) 单词 
在 一 段 文字 中 出 现 的 频率 最 高 ? 在 本 章 中 ,我 们 会 用 这 个 用 例 以 及 三 段 文字 来 进行 性 能 测试 : 狄 
更 斯 的 《双城记 》 中 的 前 五 行 ( tinyTale.txt) ，《 双 城 记 》 全 书 (tale.txt) ， 以 及 一 个 知名 的 叫做 
Leipzig Corpora Collection 的 数据 库 ( leipzig1M.txt ), 内 容 为 一 百 万 条 随机 从 网 络 上 抽取 的 句子 。 例 如 ， 
这 是 tinyTale.txt 的 内 容 : 


% more tinyTale.txt 

it was the best of times it was the worst of times 

it was the age of wisdom it was the age of foolishness 

it was the epoch of belief it was the epoch of incredulity 
it was the season of light it was the season of darkness 
it was the spring of hope it was the winter of despair 


小 型 测试 输入 


这 上段 文字 共有 60 个 单词 ， 去 掉 重 复 的 单词 还 剩 20 个 ， 其 中 4 个 出 现 了 10 次 (频率 最 高 ) 。 
对 于 这 段 文字 ，FrequencyCounter 可 能 会 打印 出 it、was、the 或 者 of 中 的 某 一 个 单词 ( 具体 会 打 
印 出 哪 一 个 取决 于 符号 表 的 具体 实现 ) ， 以 及 它 出 现 的 频率 10。 表 3.1.7 总 结 了 大 型 测试 输入 流 的 
性 质 。 


表 3.1.7 大 型 测试 输入 流 的 性 质 


| TinyTaletxt | leipzig1M.txt 
0 单词 数 ”| 不 同 的 单词 数 不 同 的 单词 数 
































所 有 单词 135 635 21 191 455 534 580 
长 度 大 于 等 于 8 的 14 350 4239 597 299 593 
单词 
长 度 大 于 等 于 10 的 4582 1 610 829 165 555 
单词 


FrequencyCounter 用 例 实现 过 程 如 下 所 示 。 
符号 表 的 用 例 
public class FrequencyCounter 
{ 
public static void main(String[] args) 
{ 
int minlen = Integer.parseInt(args[0]); // 最 小 键 长 
ST<String, Integer> st = new ST<String, Integer>(); 
while (!StdIn.isEmptyO) 
{ // 构造 符号 表 并 统计 频率 
String word = StdIn.readString(); 
if (word.length() < minlen) continue; // 忽略 较 短 的 单词 
if (!st.contains(word)) st.put(word, 1); 
else st.put(word, st.get(word) + 1); 
// 找 出 出 现 频率 最 高 的 单词 


String max = 
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st.put(max, 0); 
for (String word : st.keysQO)) 
if (st.get(word) > st.get(max)) 


max = word; 


StdOut.printin(max + " " + St.get(max)); 


} 
这 个 符号 表 的 用 例 统 计 了 标准 输入 中 各 % java FrequencyCounter 1 < tinyTale.txt 
个 单词 的 出 现 频率 ， 然 后 将 频率 最 高 的 单词 it 10 


打印 出 来 。 命 令 行 参 数 指定 了 表 中 的 键 的 最 % java FrequencyCounter 8 < tale.txt 
短 长 度 。 business 122 


% java FrequencyCounter 10 < leipzigl1M.txt 
government 24763 


研究 符号 表 处 理 大 型 文本 的 性 能 要 考虑 两 个 方面 的 因素 : 首先 ， 每 个 单词 都 会 被 作为 键 进行 搜 
索 ， 因 此 处 理性 能 和 输入 文本 的 单词 总 量 必然 有 关 ; 其 次 ， 输 入 的 每 个 单词 都 会 被 存 人 符号 表 ( 输 
入 中 不 重复 单词 的 总 数 也 就 是 所 有 键 都 被 插入 以 后 符号 表 的 大 小 ) ， 因 此 输入 流 中 不 同 的 单词 的 总 
数 也 是 相关 的 。 我 们 需要 这 两 个 量 来 估计 FrequencyCounter 的 运行 时 间 《〈 作 为 开始 ， 请 见 练习 
3.1.6 ) 。 我 们 会 在 学 习 了 一 些 算 法 之 后 再 回头 说 明 一 些 细节 ， 但 你 应 该 对 类 似 这 样 的 符号 表 应 用 的 
需求 有 一 个 大 致 的 印象 。 例 如 ， 用 FrequencyCounter 分 析 leipzig1M.txt 中 长 度 不 小 于 8 的 单词 意 
味 着 ， 在 一 个 含有 数 以 千 计 的 键 值 对 的 符号 表 中 进行 上 百 万 次 的 查找 ， 而 互联 网 中 的 一 台 服 务 器 可 
能 需要 在 含有 上 百 万 个 键 值 对 的 表 中 处 理 上 亿 的 交易 。 

这 个 用 例 和 所 有 这 些 例子 都 提出 了 一 个 简单 的 问题 : 我 们 的 实现 能 够 在 一 张 用 多 次 get () 和 
put () 方法 构造 出 的 巨型 符号 表 中 进行 大 量 的 get() 操作 吗 ? 如 果 我 们 的 查找 操作 不 多 ， 那 么 任意 
实现 都 能 够 满足 需要 。 但 没有 一 个 高 效 的 符号 表 作 为 基础 是 无 法 使 用 FrequencyCounter 这 样 的 程 
序 来 处 理 大 型 问题 的 。FrequencyCounter 是 一 种 极为 常见 的 应 用 的 代表 ， 它 的 这 些 特 性 也 是 许多 
其 他 符号 表 应 用 的 共性 : 

口 混合 使 用 查找 和 插入 的 操作 ; 

口 大 量 的 不 同 键 ; 

口 查找 操作 比 插入 操作 多 得 多 ; 

口 虽然 不 可 预测 ， 但 查找 和 插入 操作 的 使 用 模式 并 非 随机 。 

我 们 的 目标 就 是 实现 一 种 符号 表 来 满足 这 些 能 够 解决 典型 的 实际 问题 的 用 例 的 需要 。 

下 面 , 我 们 将 会 学 习 两 种 初级 的 符号 表 实 现 并 通过 FrequencyCounter 分 别 评估 它们 的 性 能 。 
在 之 后 的 几 节 中 ， 你 会 学 习 一 些 经 典 的 实现 ， 即 使 对 于 庞大 的 输入 和 符号 表 它 们 的 性 能 仍然 非常 
优秀 。 


3.1.4 ”无 序 链表 中 的 顺序 查找 


符号 表 中 使 用 的 数据 结构 的 一 个 简单 选择 是 链表 ， 每 个 结 点 存储 一 个 键 值 对 ， 如 算法 3.1 中 
的 代码 所 示 。getQ 的 实现 即 为 遍历 链表 ， 用 equals0) 方法 比较 需 被 查找 的 键 和 每 个 结 点 中 
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的 键 。 如 果 匹 配 成 功 我 们 就 返回 相应 的 值 ， 否 则 我 们 返回 nu11。putQ 的 实现 也 是 遍历 链表 ， 
用 equalsQ 方法 比较 需 被 查找 的 键 和 每 个 结 点 中 的 键 。 如 果 匹 配 成 功 我 们 就 用 第 二 个 参数 指定 
的 值 更 新 和 该 键 相 关联 的 值 ， 否 则 我 们 就 用 给 定 的 键 值 对 创建 一 个 新 的 结 点 并 将 其 插入 到 链表 的 
开头 。 这 种 方法 也 被 称 为 顺序 查找 : 在 查找 中 我 们 一 个 一 个 地 顺序 遍历 符号 表 中 的 所 有 键 并 使 用 
equal1s() 方法 来 寻找 与 被 查找 的 键 匹配 的 键 。 

算法 3.1 (SequentialSearchST ) 用 链表 实现 了 符号 表 的 基本 API， 我 们 在 第 1 章 中 的 基础 数 
据 结构 中 学 习 过 它 。 这 里 我 们 将 size() 、keys() 和 即时 型 的 delete() 方法 留 做 练习 。 这 些 练习 
能 够 巩固 并 加 深 你 对 链表 和 符号 表 的 基本 API 的 理解 。 

这 种 基于 链表 的 实现 能 够 用 于 和 我 们 的 用 例 类 似 的 、 需 要 大 型 符号 表 的 应 用 吗 ? 我 们 已 经 说 
过 ,分 析 符 号 表 算法 比分 析 排 序 算法 更 困难 ， 因 为 不 同 的 用 例 所 进行 的 操作 序列 各 不 相同 。 对 于 
FrequencyCounter， 最 常见 的 情形 是 虽然 查找 和 插入 的 使 用 模式 是 不 可 预测 的 ， 但 它们 的 使 用 肯 
定 不 是 随机 的 因此 我 们 主要 研究 最 坏 情况 下 的 性 能 。 为 了 方便 , 我 们 使 用 命中 表示 一 一 次 成 功 的 查找 ， 
未 命中 表示 一 次 失败 的 查找 。 使 用 基于 链表 的 符号 表 的 索引 用 例 的 轨迹 如 图 3.1.2 所 示 。 
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图 3.1.2 使 用 基于 链表 的 符号 表 的 索引 用 例 的 轨迹 ( 另 见 彩 插 ) 


算法 3.1 顺序 查找 (基于 无 序 链表 ) 


public class SequentialSearchST<Key, Value> 
{ 
private Node first; // 链表 首 结 点 
private class Node 
{ // 链表 结 点 的 定义 
Key key; 


Value val; 
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Node next; 


public Node(Key key, Value val, Node next) 


下 
this.key = key; 
this.val = val; 
this.next = next; 
} 


} 
public Value get(Key key) 
人 { // 查找 给 定 的 键 ， 返回 相 关联 的 值 
for (Node x = first; x != null; x = x.next) 
if (key.equals(x.key)) 
return x.val; // 命中 
return null; // 未 名 中 
public void put(Key key, Value val) 
{ // 查找 给 定 的 键 ， 找 到 则 更 新 其 值 ， 否 则 在 表 中 新 建 结 点 
for (Node x = first; x != null; x = x.next) 
if (key.equals(x.key)) 
{ x.val = val; return; } // 命中 ， 更 新 
first = new Node(key，val1，first);i // 未 命中 ， 新 建 结 点 


} 

符号 表 的 实现 使 用 了 一 个 私有 内 部 Node 类 来 在 链表 中 保存 键 和 值 。getQ 的 实现 会 顺序 地 搜索 链 
表 查 找 给 定 的 键 ( 找到 则 返回 相关 联 的 值 ) 。putQ 〇 的 实现 也 会 顺序 地 搜索 链表 查找 给 定 的 键 ， 如 果 找 
到 则 更 新 相关 联 的 值 ， 否 则 它 会 用 给 定 的 键 值 对 创建 一 个 新 的 结 点 并 将 其 插入 到 链表 的 开头 。size(、 
keys() 和 即时 型 的 deleteQ 〇 方法 的 实现 留 做 练习 。 


wy 
一 
un 


命题 A。 在 含有 入 对 键 值 的 基于 (无 序 ) 链表 的 符号 表 中 ， 未 命中 的 查找 和 插入 操作 都 需要 入 
次 比较 。 命 中 的 查找 在 最 坏 情况 下 需要 NN 次 比较 。 特 别 地 ， 向 一 个 空 表 中 插入 个 不 同 的 键 需 
要 ~ N”/2 次 比较 。 


证 明 。 在 表 中 查找 一 个 不 存在 的 键 时 ， 我 们 会 将 表 中 的 每 个 键 和 给 定 的 键 比较 。 因 为 不 允许 出 
现 重复 的 键 , 每 次 插入 操作 之 前 我 们 都 需要 这 样 查找 一 遍 。 


推论 。 向 一 个 空 表 中 插入 N 个 不 同 的 键 需要 ~ NV/2 次 比较 。 
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查找 一 个 已 经 存在 的 键 并 不 需要 线性 级 别 的 时 间 。 一 种 度量 方法 是 查找 表 中 的 每 个 键 ， 并 将 总 
时 间 除 以 N。 在 查找 表 中 的 每 个 键 的 可 能 性 都 相同 的 情况 下 时 ， 这 个 结果 就 是 一 次 查找 平均 所 需 的 
比较 数 。 我 们 将 它 称 为 随机 命中 。 尽 管 符号 表 用 例 的 查找 模式 不 太 可 能 是 随机 的 ， 这 个 模型 也 总 能 
适应 得 很 好 。 我 们 很 容易 就 可 以 得 到 随机 命中 所 需 的 平均 比较 次 数 为 ~V2: 算法 3.1 中 的 get0 方法 
查找 第 一 个 键 需要 1 次 比较 ， 查 找 第 二 个 键 需要 2 次 比较 ， 如 此 这 般 ， 平 均 比 较 次 数 为 (1+2+…+N)/ 
N=(N+1)/2~N/2。 

这 些 分 析 完 全 证 明了 基于 链表 的 实现 以 及 顺序 查找 是 非常 低 效 的 ， 无 法 满足 Frequency- 
Counter 处 理 庞 大 输入 问题 的 需求 。 比 较 的 总 次 数 和 查找 次 数 与 插入 次 数 的 乘积 成 正比 。 对 于 《 双 
城 记 》 这 个 数字 大 于 10”， 而 对 于 Leipzig Corpora 数据 库 这 个 数字 大 于 10"。 

按照 惯例 ， 为 了 验证 分 析 结 果 我 们 需要 进行 一 些 实验 。 这 里 我 们 用 FrequencyCounter 以 及 命 
令 行 参数 8 来 分 析 tale.txt。 这 将 需要 14 350 次 put() (已 经 说 过 ,输入 中 的 每 个 单词 都 需要 一 次 
put() 操作 来 更 新 它 的 出 现 频率 ，contains() 方法 的 调用 是 可 以 避免 的 , 这 里 忽略 了 它 的 成 本 ) 。 
符号 表 将 包含 5737 个 键 ， 也 就 是 说 大 约 三 分 之 一 的 操作 都 将 表 增 大 了 ， 甚 余 操作 为 查找 。 为 了 将 
性 能 可 视 化 我 们 使 用 了 VisualAccumulator (请 见 表 1.2.14 ) 将 每 次 put( 操作 转换 为 两 个 点 : 对 
于 第 i 次 put0) 操作 , 我 们 会 在 横 坐 标 为 i, 纵 坐 标 为 该 次 操作 所 进行 的 比较 次 数 的 位 置 画 一 个 灰 点 ， 
以 及 横 坐 标 为 i, 纵 坐 标 为 前 i 次 put() 操作 累计 所 需 的 平均 比较 次 数 的 位 置 画 一 个 黑 点 ， 如 图 3.1.3 
所 示 。 和 所 有 科学 实验 数据 一 样 ， 这 其 中 包含 了 很 多 信息 供 我 们 研究 ( 这 张 图 含有 14 350 个 灰 点 和 
14 350 个 黑 点 ) 。 这 里 ， 我 们 的 主要 兴趣 在 于 这 张 表 证 实 了 我 们 关于 put() 平均 需要 访问 半 条 链表 
的 猜想 。 虽 然 实际 的 数据 比 一 半 稍 少 ， 但 对 这 个 事实 〈 以 及 图 表 曲 线 的 形状 ) 最 好 的 解释 应 该 是 应 
用 的 特性 ， 而 非 算法 (请 见 练习 3.1.36 ) 。 

尽管 某 个 具体 用 例 的 性 能 特点 可 能 是 复杂 的 , 但 只 要 使 用 我 们 准备 的 文本 或 者 随机 有 序 输 
入 以 及 我 们 在 第 1 章 中 介绍 的 DoublingTest 程序 ， 我 们 还 是 能 够 轻松 估计 出 FrequencyCounter 
的 性 能 并 测试 验证 的 。 我 们 将 这 些 测试 留 给 练习 和 接 下 来 将 要 学 习 的 更 加 复杂 的 实现 。 如 果 
你 并 不 觉得 我 们 需要 更 快 的 实现 ， 请 一 定 完 成 这 些 练习 ! (或 者 用 FrequencyCounter 调用 
SequentialSearchST 来 处 理 leipziglM.txt! ) 





5737 
< 
笠 
~ 2246 
0 = 
0 操作 14350 


图 3.1.3 使 用 SequentialSearchST， 运行 java FrequencyCounter 8 < tale.txt 的 成 本 


3.1.5 ”有 序数 组 中 的 二 分 查找 
下 面 我 们 要 学 习 有 序 符号 表 API 的 完整 实现 。 它 使 用 的 数据 结构 是 一 对 平行 的 数组 ， 一 个 存储 
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键 一 个 存储 值 。 算 法 3.2 (BinarySearchST ) 可 以 保证 数组 中 Comparable 类 型 的 键 有 序 ， 然 后 使 
用 数组 的 索引 来 高 效 地 实现 get() 和 其 他 操作 。 

这 份 实现 的 核心 是 rank0) 方法 ， 它 返回 表 中 小 于 给 定 键 的 键 的 数量 。 对 于 get 0) 方法 ， 只 要 
给 定 的 键 存 在 于 表 中 ，rank 0) 方法 就 能 够 精确 地 告诉 我 们 在 哪里 能 够 找到 它 〈 如 果 找 不 到 ， 那 它 
肯定 就 不 在 表 中 了 ) 。 

对 于 put0) 方法 ， 只 要 给 定 的 键 存在 于 表 中 ，rank 0) 方法 就 能 够 精确 地 告诉 我 们 到 哪里 去 更 
新 它 的 值 ， 以 及 当 键 不 在 表 中 时 将 键 存储 到 表 的 何 处 。 我 们 将 所 有 更 大 的 键 向 后 移动 一 格 来 腾 出 位 
置 (从 后 向 前 移动 ) 并 将 给 定 的 键 值 对 分 别 插入 到 各 自 数 组 中 的 合适 位 置 。 结 合 我 们 测试 用 例 的 轨 
迹 来 研究 BinarySearchsT 也 是 学 习 这 种 数据 结构 的 好 方法 。 

这 段 代 码 为 键 和 值 使 用 了 两 个 数组 ( 另 一 种 方式 请 见 练习 3.1.12 ) 。 和 我 们 在 第 1 章 中 对 泛 
型 的 栈 和 队列 的 实现 一 样 ， 这 段 代 码 也 需要 创建 一 个 Key 类 型 的 Comparable 对 象 的 数组 和 一 个 
Value 类 型 的 0bject 对 象 的 数组 ， 并 在 构造 函数 中 将 它们 转化 回 Key[] 和 Value[] 。 和 以 前 一 样 ， 
我 们 可 以 动态 调整 数组 ， 使 得 用 例 无 需 担 心 数 组 大 小 (请 注意 ， 你 会 发 现 这 种 方法 对 于 大 数组 实在 
是 太 慢 了 ) 。 

使 用 基于 有 序数 组 的 符号 表 实 现 的 索引 用 例 的 轨迹 如 表 3.1.8 所 示 。 


表 3.1.8 使 用 基于 有 序数 组 的 符号 表 实现 的 索引 用 例 的 轨迹 


keys [] vals[] 
全 什 导语 让 
“ee 1 0 
E 瑟瑟 , 2 工作 黑色 的 是 向 右 
入 六 A ES Sh 3 2 1 0 ,移动 过 的 元 素 
R 3 RS 4 3 0 
C 4 CERS 5 WW 池河 
t 圈 中 由 
i 
允 剖 x 7 7 
A 8 ?Xe 
M 9 M RSX 8 9307 
P 10 P RSX 9 10 3 07 
| LMPRS XxX 10 于 0 3 0 
E 12 10 GD) 
ACEHLMPRSX 8 #2 Si G0 3 0 7 


算法 3.2 二 分 查找 (基于 有 序数 组 ) 


public class BinarySearchST<Key extends Comparable<Key>, Value> 
{ 
private Key[] keys; 
private Value[] vals; 
private int N; 
public BinarySearchST(int capacity) 
{ ”// 调整 数组 大 小 的 标准 代码 请 见 算法 1.1 
keys = (Key[]) new Comparable[capacity]; 
vals = (Value[]) new Object[capacity]; 
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public int size() 

{ return N; } 

public Value get(Key key) 

{ 
if (isEmpty()) return null; 
int i = rank(key); 


if (i < N && keys[i].compareTo(key) == 0) return vals[i]; 


else 


} 


public int rank(Key key) 
// 请 见 算法 3.2 ( 续 1 ) 


public void put(Key key, Value val) 


return null; 


{ // 查找 键 ， 找 到 则 更 新 值 ， 否 则 创建 新 的 元 素 


int 1 = rank(key); 


if (i < N && keys[i].compareTo(key) == 0) 


{ vals[i] = val; return; } 
Tov (ht = Ns JT Te--) 


{ keys[j] = keys[j-1]; vals[j] = vals[j-1]; } 


keys[i] = key; vals[i] = val; 
N++; 


} 


public void delete(Key key) 
// 该 方法 的 实现 请 见 练习 3.1.16 


} 


这 段 符号 表 的 实现 用 两 个 数组 来 保存 键 和 值 。 和 1.3 节 中 基于 数组 的 栈 一 样 ，put () 方法 会 在 插入 
新 元 素 前 将 所 有 较 大 的 键 向 后 移动 一 格 。 这 里 省 略 了 调整 数组 大 小 部 分 的 代码 。 
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我 们 使 用 有 序数 组 存储 键 的 原因 是 ， 第 1 章 中 作为 例子 出 现 的 经 典 二 分 查找 法 能 够 根据 数组 的 


索引 大 大 减少 每 次 查找 所 需 的 比较 次 数 。 我 
们 会 使 用 有 序 索引 数组 来 标识 被 查找 的 键 可 
能 存在 的 子 数组 的 大 小 范围 。 在 查找 时 ， 我 
们 先 将 被 查找 的 键 和 子 数组 的 中 间 键 比较 。 
如 果 被 查找 的 键 小 于 中 间 键 ， 我 们 就 在 左 子 
数组 中 继续 查找 ， 如 果 大 于 我 们 就 在 右 子 数 
组 中 继续 查找 ， 否 则 中 间 键 就 是 我 们 要 找 的 
键 。 算法 3.2( 续 1) 中 实现 rankQ 方法 的 
代码 使 用 了 刚才 讨论 的 二 分 查找 法 。 这 个 实 
现 值得 我 们 仔细 研究 。 作 为 开始 ， 我 们 来 看 
看 这 段 等 价 的 递归 代码 。 


public int rank(Key key, int lo, int hi) 
{ 
if (hi < 10) return 1o; 
int mid = lo + (hi - 10) / 2; 
int cmp = key.compareTo(keys[mid]); 
if (cmp < 0) 
return rank(key, lo, mid-1); 
else if (cmp > 0) 
return rank(key, mid+l1, hi); 
else return mid; 


递归 的 二 分 查找 


调用 这 里 的 rank(key，0，N-1) 所 进行 的 比较 和 调用 算法 3.2( 续 1 ) 的 实现 所 进行 的 比较 完 
全 相同 。 但 如 1.1 节 中 讨论 的 , 这 个 版 本 更 好 地 暴露 了 算法 的 结构 。 递归 的 rankQ 〇 保留 了 以 下 性 质 : 
口 如 果 表 中 存在 该 键 ，rankQ 应 该 返回 该 键 的 位 置 ， 也 就 是 表 中 小 于 它 的 键 的 数量 ; 
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口 如 果 表 中 不 存在 该 键 ，rank() 还 是 应 该 返回 表 中 小 于 它 的 键 的 数量 。 

好 好 想 想 算法 3.2( 续 1 ) 中 非 递归 的 rankQ 〇 为 什么 能 够 做 到 这 些 〈 你 可 以 证 明 两 个 版 本 的 等 
价 性 ， 或 者 直接 证 明 非 递归 版 本 中 的 循环 在 结束 时 1o 的 值 正好 等 于 表 中 小 于 被 查找 的 键 的 键 的 数 
量 ) ， 所 有 程序 员 都 能 从 这 些 思考 中 有 所 收获 。( 提示: 1o 的 初始 值 为 0， 且 永远 不 会 变 小 ) 


算法 3.2( 续 1) 基于 有 序数 组 的 二 分 查找 (和 迭代) 


public int rank(Key key) 
下 

int lo = 0, hi = N-1; 

while (lo <= hi) 

{ 
15 hi = 10) Y 23 
int cmp = key.compareTo(keys[mid]); 
J (cmp < 0) hi = mid - 1; 
else if (cmp > 0) 1o = mid + 1; 
else return mid; 


一 
杞 
+ 
Ei 
a 
总 

1 


return 1o; 


} 


该 方法 实现 了 正文 所 述 的 经 典 算法 来 计算 小 于 给 定 键 的 键 的 数量 。 它 首先 将 key 和 中 间 键 比较 ， 如 
果 相 等 则 返回 其 索引 ; 如 果 小 于 中 间 键 则 在 左 半 部 分 查找 ; 大 于 则 在 右 半 部 分 查找 。 


keys[] 
对 p 的 命中 查找 0 1 2 3 4 5 6 7 8 9 
1o hi mid 黑色 的 元 来 是 
0 9 4 ACE HLM PR SS Xx 已 有 郊 系 
5 多 子 M P R Ss XxX- a[10.…hi] 中 的 键 
Sop 处 ,站 民 、 黑色 加 粗 的 元 素 是 
6 6 6 P 中 间 键 armid] 
对 9 的 未 命中 查找 中 间 键 和 P 相 等 时 循环 退出 
16 hi mid 
站 了 
本 六 MPRSX 
5 6 5 M P 
7 .6 和 p 
玉 1owhi 时 循环 退出 ， 返 回 7 


在 有 序数 组 中 使 用 二 分 法 查找 排名 的 轨迹 


算法 3.2《〈 续 2) 基于 二 分 查找 的 有 序 符号 表 的 其 他 操作 


public Key min() 
{ return keys[0]; } 


public Key max() 
{ return keys[N-1]; } 


public Key select(int k) 
{ return keys[k]; } 
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public Key ceiling(Key key) 
时 
int 1 = rank(key); 
return keys[i]; 


} 


public Key floor(Key key) 
// 请 见 练习 3.1.17 


public Key delete(Key key) 
// 请 见 练习 3.1.16 


public Iterable<Key> keys(Key 1o, Key hi) 
Queue<Key> q = new Queue<kKey>() ; 
for (Cint 1 = rank(lo); i < rank(hi); i++) 
q.enqueue(keys[i]); 
if (contains (hi)) 
q.enqueue(keys[rank(hi)]); 
return q; 


. 

这 些 方法 ， 以 及 练习 3.1.16 和 练习 3.1.17， 组 成 了 我 们 对 使 用 二 分 查找 的 有 序 符号 表 的 完整 实现 。 
min()、max() 和 select() 方法 都 很 简单 ， 只 需 按照 给 定 的 位 置 从 数组 中 返回 相应 的 值 即 可 。rank0) 
方法 实现 了 二 分 查找 ， 是 其 他 方法 的 基石 。floor() 和 delete() 方法 虽然 也 不 难 ， 但 稍微 复杂 一 些 ， 在 
此 留 做 练习 。 


3.1.5.2 ”其 他 操作 

因为 键 被 保存 在 有 序数 组 中 ， 算 法 3.2( 续 2) 中 和 顺序 有 关 的 大 多 数 操作 都 一 目 了 然 。 例 如 ， 
调用 select(k) 就 相当 于 返回 keys[k]。 我 们 将 delete() 和 floor() 留 做 练习 。 你 应 该 研究 一 
下 ceiling() 和 带 两 个 参数 的 keys Q 方法 的 实现 ， 并 完成 练习 来 巩固 和 加 深 你 对 有 序 符号 表 的 
API 及 其 实现 的 理解 。 


3.1.6 ”对 二 分 查找 的 分 析 
rank0Q 的 递归 实现 还 能 够 让 我 们 立即 得 到 一 个 结论 : 二 分 查找 很 快 ， 因 为 递归 关系 可 以 说 明 
算法 所 需 比较 次 数 的 上 界 。 


命题 B。 在 和 N 个 键 的 有 序数 组 中 进行 二 分 查找 最 多 需要 (lgN+1) 次 比较 〈 无 论 是 否 成 功 ) 。 


证 明 。 这 里 的 分 析 和 对 归并 排序 的 分 析 (第 2 章 的 命题 F) 类 似 (但 相对 简单 ) 。 令 CUN 为 
在 太 小 为 W 的 符号 表 中 查找 一 个 键 所 需 进 行 的 比较 次 数 。 显 然 我 们 有 C(O)=0，C(D)=1， 且 对 于 
AP0 我 们 可 以 写 出 一 个 和 兹 归 方 法 直接 对 应 的 归纳 关系 式 : 

C(N) < C(LN2])+1 
无 论 查找 会 在 中 间 元 素 的 左 侧 还 是 右 侧 继续 ， 子 数组 的 大 小 部 不 会 超过 LN2|]， 我 们 需要 一 次 
比较 来 检查 中 间 元 素 和 被 查找 的 键 是 否 相等 ， 并 决定 继续 查找 左 侧 还 是 右 侧 的 子 数 组 。 当 N 为 
2 的 医 减 1 时 《N-2-1 ) ， 这 种 递 推 很 容易 。 首 先 ， 因 为 LN/2]=2”-1， 所 以 我 们 有 : 

CCI1) < CO -1+1l 


用 这 个 公式 代 换 不 等 式 右 边 的 第 一 项 可 得 : 


C(2°-1) < CC 一 -1)+1+1 


将 上 面 这 一 步 重复 n-2 次 可 得 : 


C(2"-1) < C2)+n 


最 后 的 结果 即 : 


C(V)=C(9 < nt+1<lgN+1 
对 于 一 般 的 W， 确 切 的 结论 更 加 复杂 ， 但 不 难 通过 以 上 论证 推广 得 到 (请 见 练习 3.1.20) 。 二 


分 查找 所 需 时 间 必 然 在 对 数 范围 之 内 。 
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刚才 给 出 的 实现 中 ，cei1ling() 只 是 调用 了 一 次 rank()， 而 接受 两 个 参数 的 默认 size() 方 


法 调用 了 两 次 rank()， 因 此 这 份 证明 也 保证 了 这 些 
操作 (包括 fioorQO ) 所 需 的 时 间 最 多 是 对 数 级 别 的 
(min()、max() 和 select() 操作 所 需 的 时 间 都 是 常 
数 级 别 的 ) 。 

尽管 能 够 保证 查找 所 需 的 时 间 是 对 数 级 别 
的 ，BinarySearchST 仍然 无 法 支持 我 们 用 类 似 
FrequencyCounter 的 程序 来 处 理 大 型 问题 ， 因 为 put() 
方法 还 是 太 慢 了 。 二 分 查找 减少 了 比较 的 次 数 但 无 法 减 
少 运行 所 需 时 间 ， 因 为 它 无 法 改变 以 下 事实 : 在 键 是 随 
机 排列 的 情况 下 ， 构造 一 个 基于 有 序数 组 的 符号 表 所 需 
要 访问 数组 的 次 数 是 数组 长 度 的 平方 级 别 (在 实际 情况 
下 键 的 排列 虽然 不 是 随机 的 ， 但 仍然 很 好 地 符合 这 个 模 
型 ) 。BinarySearchST 的 操作 的 成 本 如 表 3.1.9 所 示 。 


命题 B〈 续 ) 。 向 大 小 为 W 的 有 序数 组 中 插入 一 个 
新 的 元 素 在 最 坏 情 况 下 需要 访问 ~ 2N 次 数组 ， 因 此 
向 一 个 空 符号 表 中 插入 N 个 元 素 在 最 坏 情况 下 需要 
访问 ~ N 次 数组 。 


证 明 。 同 命题 A。 


游 ;和 绪 
put() 
get() 
delete() 
contains() 
size() 
min() 
max() 
floorO) 
ceiling() 
rank() 
select() 
deleteMin() 


deleteMax() 


表 3.1.9 BinarySearchST 的 操作 的 成 本 


运行 所 需 时 间 的 383 
增长 数量 级 


N 


logN 


1 


对 于 含有 10 个 不 同 键 的 《双城记 》， 构 建 符号 表 需 要 访问 数组 约 10 次 ; 而 对 于 含有 10° 个 
不 同 键 的 Leipzig 项 目 则 需要 访问 数组 10" 次。 虽然 现代 计算 机 可 勉强 实现 ， 但 这 样 的 成 本 还 是 过 


高 了 。 


回头 看 看 FrequencyCounter 在 参数 为 8 时 put0) 操作 的 性 能 ， 我 们 可 以 看 到 平均 情况 下 的 
比较 次 数 (包括 访问 数组 的 次 数 ) 从 SequentialSearchST 的 2246 次 降低 到 了 BinarySearchST 
的 484 次 (如 图 3.1.4 所 示 ) 。 这 上 比 我 们 在 分 析 中 预测 的 还 要 更 好 ， 额 外 的 部 分 可 能 能 够 再 次 通过 
应 用 的 性 质 得 到 解释 ( 请 见 练习 3.1.36 ) 。 这 次 改进 令 人 印象 深刻 , 但 你 会 看 到 , 我 们 还 能 做 得 更 好 。 
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5737 
长 
将 
-一 484 
0 
0 操作 14350 


图 3.1.4 使 用 BinarySearchST， 运 行 java FrequencyCounter 8 < tale.txt 的 成 本 


3.1.7 预览 

一 般 情 况 下 二 分 查找 都 比 顺 序 查找 快 得 多 ， 它 也 是 众多 实际 应 用 程序 的 最 佳 选择 。 对 于 一 
个 静态 表 (不 允许 插入 ) 来 说 ， 将 其 在 初始 化 时 就 排序 是 值得 的 ， 如 第 1 章 中 的 二 分 查找 所 示 
(请 见 表 1.2.15 ) 。 即 使 查找 前 所 有 的 键 值 对 已 知 (这 在 应 用 程序 中 是 一 种 常见 的 情况 ) ， 为 
BinarySearchST 添 加 一 个 能 够 初始 化 并 将 符号 表 排 序 的 构造 函数 也 是 有 意义 的 (请 见 练习 3.1.12 )。 
当然 ， 二 分 查找 也 不 适合 很 多 应 用 。 例 如 ， 它 无 法 处 理 Leipzig Corpora 数据 库 ， 因 为 查找 和 插入 操 
作 是 混合 进行 的 ， 而 且 符 号 表 也 太 大 了 。 如 我 们 所 强调 的 那样 ， 现 代 应 用 需要 同时 能 够 支持 高 效 的 
查找 和 插入 两 种 操作 的 符号 表 实现 。 也 就 是 说 ， 我 们 需要 在 构造 庞大 的 符号 表 的 同时 能 够 任意 插入 
(也 许 还 有 删除 ) 键 值 对 ， 同 时 也 要 能 够 完成 查找 操作 。 

表 3.1.10 给 出 了 本 节 中 介绍 的 符号 表 的 初级 实现 的 性 能 特点 。 表 中 给 出 的 是 总 成 本 中 的 最 高 级 
项 (对 于 二 分 查找 是 数组 的 访问 次 数 ， 对 于 其 他 则 是 比较 次 数 ) ， 即 运行 时 间 的 增长 数量 级 。 


表 3.1.10 简单 的 符号 表 实 现 的 成 本 总 结 















最 坏 情况 下 的 成 本 平均 情况 下 的 成 本 
(NN 次 插入 后 ) (NN 次 随机 插入 后 ) 


N N N/2 N 

核心 的 问题 在 于 我 们 能 否 找到 能 够 同时 保证 查找 和 插入 操作 都 是 对 数 级 别 的 算法 和 数据 结构 。 
答案 是 令 人 兴奋 的 “可 以 ”! 这 个 答案 也 正 是 本 章 的 重点 所 在 。 和 第 2 章 讨论 的 高 效 排序 算法 一 样 ， 
能 够 高 效 地 查找 和 插入 的 符号 表 是 算法 领域 对 世界 最 重要 的 贡献 之 一 ， 也 是 我 们 今天 能 够 享受 的 丰 
富 计 算 性 基础 设施 的 开发 基础 。 

我 们 如 何 能 够 实现 这 个 目标 呢 ? 要 支持 高 效 的 插 和 操作， 我们 似乎 需要 一 种 链 式 结构 。 但 单 链 
接 的 链表 是 无 法 使 用 二 分 查找 法 的 ， 因 为 二 分 查找 的 高 效 来 自 于 能 够 快速 通过 索引 取得 任何 子 数组 
的 中 间 元 素 (但 得 到 一 条 链表 的 中 间 元 素 的 唯一 方法 只 能 是 沿 链表 遍历 ) 。 为 了 将 二 分 查找 的 效率 
和 链表 的 灵活 性 结合 起 来 ， 我 们 需要 更 加 复杂 的 数据 结构 。 能 够 同时 拥有 两 者 的 就 是 二 又 查找 树 ， 
它 也 是 我 们 下 面 两 节 的 主题 。 我 们 会 将 散 列 表 留 到 3.4 节 中 讨论 。 


是 否 高 效 地 支持 有 序 


算法 (数据 结构 ) 性 相关 的 操作 









顺序 查找 ( 无 序 链表 ) 
二 分 查找 (有 序数 组 ) 
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在 本 章 中 我 们 会 学 习 6 种 符号 表 的 实现 ， 这 里 我 们 先 给 出 一 个 简单 的 预览 。 表 3.1.11 包含 一 系 
列 数据 结构 以 及 它们 适用 和 不 适用 于 某 个 应 用 场景 的 原因 ， 按 照 我 们 学 习 它 们 的 先后 顺序 排列 。 


表 3.1.11 ”符号 表 的 各 种 实现 的 优 缺 点 





使 用 的 数据 结构 实 现 优 点 缺 点 
链表 ( 顺序 查找 ) SequentialSearchST 适用 于 小 型 问题 对 于 大 型 符号 表 很 慢 
最 优 的 查找 效率 和 空间 需 
| (= 分， pinarysearehst 求 ， 能 够 进行 有 序 性 相关 ”插入 操作 很 慢 
的 操作 
上 访 富 禄 扩 六 实现 简单 ， 能 够 进行 有 序 ”没有 性 能 上 界 的 保证 
二 又 查找 树 BT 性 相关 的 操作 链接 需要 额外 的 空间 
SI 最 优 的 查找 和 插 人 效率 ， 能 Ee A 

平衡 二 叉 查 找 树 ” RedBlackBST 够 进行 有 序 性 相关 的 操作 链接 需要 额外 的 空间 

Pe 需要 计算 每 种 类 型 的 数据 的 散 列 无 
散 列表 SeparateChainHashST ”能 够 快速 地 查找 和 插入 常 法 进行 有 序 性 相关 的 操作 链接 和 空 


LinearProbingHashST 见 类 型 的 数据 结 点 需要 人 额外 的 空间 
在 学 习 中 我 们 会 仔细 了 解 每 种 算法 和 实现 的 各 种 性 质 ， 这 里 的 简单 特性 是 为 了 帮助 你 在 学 习 它 

们 的 同时 能 够 从 全 局 的 高 度 来 理解 它们 。 一 句 话 ， 我 们 有 若干 种 高 效 的 符号 表 实 现 ， 它 们 能 够 并 且 

已 经 被 应 用 于 无 数 程序 之 中 了 。 386 





图 答 丝 


问 为 什么 符号 表 不 像 2.4 节 中 优先 队列 那样 使 用 一 个 Comparable 的 Item 类 型 ， 而 是 对 于 键 和 值 使 用 
不 同 的 数据 类 型 ? 

答 这 的 确 是 一 种 可 行 的 办 法 。 这 两 者 代表 了 将 键 和 值 关 联 起 来 的 两 种 不 同方 式 一 一 我 们 可 以 构造 一 
种 将 键 包含 在 其 中 的 数据 结构 来 隐 式 关联 键 值 或 是 显 式 地 将 键 和 值 区 分 开 来 。 对 于 符号 表 ， 我 们 
选择 突出 关联 数组 的 抽象 形式 。 同 时 也 请 注意 ， 符 号 表 的 用 例 在 查找 时 只 会 指定 一 个 键 ， 而 非 一 
个 键 值 对 。 


问 为 什么 要 用 equals() ? 为 什么 不 一 直 使 用 compareTo() ? 

答 “并 不 是 所 有 的 数据 产生 的 键 值 对 都 能 够 进行 比较 ， 尽 管 有 时 候 将 它们 保存 在 符号 表 可 以 。 举 一 个 比 
较 极 端的 例子 , 你 可 能 会 用 一 幅 照片 或 者 一 首 歌 作为 键 , 但 没 法 比较 它们 , 只 能 知道 它们 是 否 相等 ( 也 
要 花 点 儿 工 夫 ) 。 

问 为 什么 键 的 值 不 能 为 空 Cnul1) ? 

答 ”因为 我 们 会 用 Key 调用 compareTo() 或 者 equalsQ 方法 ， 因 此 我 们 假设 它 是 一 个 0bject。 但 是 
当 a 为 null 时 a.compareTo(b) 会 抛 出 一 个 空 指针 异常 。 如 果 能 消除 这 种 可 能 性 ， 用 例 的 代码 能 够 
更 简单 。 

问 ”为 什么 不 和 排序 一 样 使 用 一 个 类 似 于 lessQ 〇 的 方法 ? 

答 “在 符号 表 中 等 价 性 比较 特殊 ， 因 此 我 们 还 需要 一 个 方法 来 测试 等 价 性 。 为 了 避免 增加 本 质 上 功能 相 


同 的 方法 ,我 们 使 用 了 Java 内 置 的 equals() 和 compareTo()。 
问 在 BinarySearchST 中 的 类 型 转换 之 前 ， 为 什么 不 将 key[] 和 val[] 一 样 声明 为 Object[] (而 是 
Comparable[] ) ? 
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答 问 得 好 。 如 果 你 这 么 做 ， 你 会 得 到 一 个 ClassCastException， 因 为 键 只 能 是 Comparable 的 (以 
保证 key[] 中 的 元 素 都 有 compareTo() 方法 ) 。 因 此 将 key[] 声明 为 Comparable[] 是 必需 的 。 深 
入 程序 语言 的 设计 细节 来 解释 这 里 的 原因 可 能 会 有 些 跑题 。 在 本 书 所 有 使 用 泛 型 的 Comparable 对 
象 和 数组 的 代码 中 我 们 都 会 照 此 办 理 。 

问 ”如果 我 们 需要 将 多 个 值 关 联 到 同一 个 键 怎 么 办 ? 例如 ， 如 果 我 们 在 应 用 程序 中 用 Date 日 期 作为 键 ， 
那 不 会 需要 处 理 重复 的 键 吗 ? 

答 可 能 会 ， 也 可 能 不 会 。 例 如 ， 两 列 火 车 不 可 能 同时 在 同一 条 轨道 上 到 达 同 一 个 车 站 (但 它们 可 以 在 
不 同 的 铁轨 上 同时 到 站 ) 。 处 理 这 种 情形 有 两 个 办 法 : 用 其 他 信息 来 消除 重复 或 者 使 用 Queue 类 型 
来 存储 所 有 有 相同 键 的 值 。 我 们 会 在 3.5 节 中 详细 讨论 符号 表 的 应 用 。 

问 ”3.1.7 节 中 将 表 预 排序 的 想法 看 起 来 是 个 好 主意 ， 为 什么 把 它 留 作 一 道 练习 ( 请 见 练习 3.1.12 ) ? 

答 ”的确 , 在 某 些 应 用 中 它 确实 是 最 佳 的 选择 。 但 在 一 个 希望 实现 快速 查找 的 数据 结构 中 为 了 “图 方便 ” 
而 加 入 一 个 低 效 的 插入 方法 会 变 成 一 个 性 能 陷阱 ， 因 为 一 个 普通 用 例 可 能 会 在 一 张 很 大 的 表 中 泥 
合 使 用 查找 和 插入 操作 却 发 现 运 行 所 需 的 时 间 是 平方 级 别 的 。 这 种 陷阱 太 常 见 了 ， 因 此 当 你 使 用 
他 人 开发 的 软件 ， 尤 其 是 接口 繁多 时 ， 你 应 该 加 倍 小 心 。 当 对 象 含有 大 量 “ 便 捷 ” 方 法 而 导致 到 
处 都 是 性 能 陷阱 ， 而 用 例 却 可 能 认为 所 有 的 方法 都 同样 高 效 时 ， 这 个 问题 就 非常 严重 了 。Java 的 
ArrayList 类 就 是 这 样 的 一 个 例子 ( 请 见 练习 3.5.27 ) 。 


图 练习 


3.1.1 编写 一 段 程序 ， 创 建 一 张 符号 表 并 建立 字母 成 绩 和 数值 分 数 的 对 应 关系 ， 如 下 表 所 示 。 从 标准 输 
入 读 取 一 系列 字母 成 绩 ， 计 算 并 打印 GPA (字母 成 绩 对 应 的 分 数 的 平均 值 ) 。 





3.1.2 ”开发 一 个 符号 表 的 实现 ArrayST， 使 用 〈 无 序 ) 数组 来 实现 我 们 的 基本 API。 

3.1.3 开发 一 个 符号 表 的 实现 OrderedSequentialSearchST， 使 用 有 序 链表 来 实现 我 们 的 有 序 符 号 表 
API。 

3.1.4 开发 抽象 数据 类 型 Time 和 Event 来 处 理 表 3.1.5 中 的 例子 中 的 数据 。 

3.1.5 ”实现 SequentialSearchST 中 的 size()、delete() 和 keys() 方法 。 

3.1.6 用 输入 中 的 单词 总 数 政和 不 同 单词 总 数 司 的 函数 给 出 FrequencyCounter 调用 的 putG) 和 
get() 方法 的 次 数 。 

3.1.7 对 于 N=10、10"、10、10'、10” 和 10， 在 NW 个 小 于 1000 的 随机 非 负 整数 中 Frequency Counter 
平均 能 够 找到 多 少 个 不 同 的 键 ? 

3.1.8 在 《双城记 》 中 ， 使 用 频率 最 高 的 长 度 大 于 等 于 10 的 单词 是 什么 ? 

3.1.9 在 FrequencyCounter 中 添加 追踪 put(0) 方法 的 最 后 一 次 调用 的 代码 。 打 印 出 最 后 插入 的 那个 
单词 以 及 在 此 之 前 总 共 从 输入 中 处 理 了 多 少 个 单词 。 用 你 的 程序 处 理 tale.txt 中 长 度 分 别 大 于 等 于 
1、8 和 10 的 单词 。 

3.1.10 给 出 用 SequentialSearchST 将 键 E ASYQUESTIO0ON 搬 入 一 个 空 符号 表 的 过 程 的 轨迹 。 
一 共 进 行 了 多 少 次 比较 ? 

3.1.11 给 出 用 BinarySearchST 将 键 E ASYQUESTION 搬 入 一 个 空 符号 表 的 过 程 的 轨迹 。 一 
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共 进 行 了 多 少 次 比较 ? 

3.1.12 ”修改 BinarySearchST， 用 一 个 Item 对 象 的 数组 而 非 两 个 平行 数组 来 保存 键 和 值 。 添 加 一 个 构 
造 函 数 ， 接 受 一 个 Item 的 数组 为 参数 并 将 其 归并 排序 。 389 

3.1.13 ”对 于 一 个 会 随机 混合 进行 10 次 putO 和 10 次 getQ 操作 的 应 用 程序 ， 你 会 使 用 本 节 中 的 哪 
种 符号 表 的 实现 ? 说 明理 由 。 

3.1.14 ”对 于 一 个 会 随机 混合 进行 10 次 putO 和 10 次 get0) 操作 的 应 用 程序 ， 你 会 使 用 本 节 中 的 哪 
种 符号 表 的 实现 ?说 明理 由 。 

3.1.15 假设 在 一 个 BinarySearchST 的 用 例 程序 中 ， 查 找 操作 的 次 数 是 插入 操作 的 1000 倍 。 当 分 别 进 
行 10、10' 和 10 次 查找 时 ， 请 估计 插入 操作 在 总 耗 时 中 的 比例 。 

3.1.16 为 BinarySearchST 实现 delete() 方法 。 

3.1.17 为 BinarySearchST 实现 floor() 方法 。 

3.1.18 证 明 BinarySearchST 中 rank() 方法 的 实现 的 正确 性 。 

3.1.19 修改 FrequencyCounter， 打 印 出 现 频率 最 高 的 所 有 单词 ， 而 非 其 中 之 一 。 提 示 : 请 用 Queue。 

3.1.20 ” 补 全 命题 B 的 证 明 (证 明 NN 的 一 般 情 况 ) 。 提 示 : 先 证 明 C(N) 的 单调 性 ， 即 对 于 所 有 的 N>0， 
C(N) < C(N+1) 


图 提高 是 


3.1.21 内 存 使 用 。 基 于 14 节 中 的 假设 ,对 于 入 对 键 值 比 较 BinarySearchST 和 SequentialSearchST 的 内 
存 使 用 情况 。 不 需要 记录 键 值 本 身 占 用 的 内 存 ， 只 统计 它们 的 引用 。 对 于 BinarySearchST， 假 
设 数组 大 小 可 以 动态 调整 ， 数 组 中 被 占用 的 空间 比例 为 25% 一 100%。 

3.1.22 ” 自 组 织 查 找 。 自 组 织 查找 指 的 是 一 种 能 够 将 数组 元 素 重新 排序 使 得 被 访问 频率 较 高 的 元 素 更 容 
易 被 找到 的 查找 算法 。 请 修改 你 为 练习 3.1.2 给 出 的 答案 ， 在 每 次 查找 命中 时 : 将 被 找到 的 键 值 
对 移动 到 数组 的 开头 ,将 所 有 中 间 的 键 值 对 向 右 移动 一 格 。 这 个 启发 式 的 过 程 被 称 为 前 移 编码 。 

3.1.23 ”二 分 查找 的 分 析 。 请 证 明 对 于 大 小 为 Y 的 符号 表 ， 一 次 二 分 查找 所 需 的 最 大 比较 次 数 正 好 是 N 
的 二 进 制 表示 的 位 数 ， 因 为 右 移 一 位 的 操作 会 将 二 进 制 的 变 为 二 进 制 的 [W2]。 

3.1.24 ”插值 法 查找 。 假 设 符号 表 的 键 支持 算术 操作 ( 例如， 它们 可 能 是 Double 或 者 Interger 类 型 的 
值 )。 编 写 一 个 二 分 查找 来 模拟 查 字典 的 行为 ， 例 如 当 单 词 的 首 字母 在 字母 表 的 开头 时 我 们 也 
会 在 字典 的 前 半 部 分 进行 查找 。 具 体 来 说 ， 设 ,为 符号 表 的 第 一 个 键 ， ;为 符号 表 的 最 后 一 个 
键 ， 当 要 查找 时 ， 先 和 [kk)/(k 一 kh) 进行 比较 ， 而 非 取 中 间 元 素 。 用 SearchCompare" 调 
用 FrequencyCounter 来 比较 你 的 实现 和 BinarySearchST 的 性 能 。 

3.1.25 缓存 。 因 为 默认 的 contains() 的 实现 中 调用 了 get()， 所 以 FrequencyCounter 的 内 循环 会 将 


同一 个 键 查找 两 三 遍 : 
if (!st.contains(word)) st.put(word, 1); 
else st.put(word, st.get(word) + 1); 


为 了 能 够 提高 这 样 的 用 例 代码 的 效率 ,我 们 可 以 用 一 种 叫 缓存 的 技术 手段 ， 即 将 访问 最 频繁 的 
键 的 位 置 保 存在 一 个 变量 中 。 修改 SequentialSearchST 和 BinarySearchST 来 实现 这 个 点 子 。 391 


@ SearchCompare 应 该 是 一 个 类 似 于 SortCompare 的 类 ， 但 实际 上 正文 中 并 没有 任何 关于 这 个 SearchCom- 
pare 类 的 内 容 。 一 一 译 者 注 
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UL 


3.1.26 


3.1.27 


3.1.28 


3:1.29 


3.1.30 


基于 字典 的 频率 统计 。 修 改 FrequencyCounter， 接 受 一 个 字典 文件 作为 参数 ， 统 计 标准 输入 中 
出 现在 字典 中 的 单词 的 频率 ， 并 将 单词 和 频率 打印 为 两 张 表格 ,一 张 按照 频率 高 低 排 序 ， 一 张 
按照 字典 顺序 排序 。 

小 符号 表 。 假 设 一 段 BinarySearchsT 的 用 例 插 入 了 N 个 不 同 的 键 并 会 进行 5 次 查找 。 当 构造 
表 的 成 本 和 所 有 查找 的 总 成 本 相同 时 ， 给 出 5 的 增长 数量 级 。 

有 序 的 插入 。 修 改 BinarySearchST， 使 得 插 人 一 个 比 当 前 所 有 键 都 大 的 键 只 需要 常数 时 间 ( 这 
样 在 构造 符号 表 时 有 序 地 使 用 putQ 〇 插 人 键 值 对 就 只 需要 线性 时 间 了 ) 

测试 用 例 。 编 写 一 段 测试 代码 TestBinarySearch.java 用 来 测试 正文 中 min()、max()、floor()、 
ceiling()、select()、rank()、deleteMin()、deleteMax() 和 keys0 的 实现 ,可 以 参考 3.1.3.1 
节 的 索引 用 例 ， 添 加 代码 使 其 在 适当 的 情况 下 接受 更 多 的 命令 行 参数 。 

验证 。 向 BinarySearchST 中 加 入 断言 (assert ) 语句 ， 在 每 次 插入 和 删除 数据 后 检查 算法 的 有 
效 性 和 数据 结构 的 完整 性 。 例 如 ， 对 于 每 个 索引 必 有 i==rank(select(i)) 且 数 组 应 该 总 是 有 
序 的 。 


图 实验 是 


3.1.31 


3.1.32 


3.1.33 


3.1.34 


3.1.35 


3.1.36 


3.1.37 


3.1.38 


性 能 测试 。 编 写 一 段 性 能 测试 程序 ， 先 用 put() 构造 一 张 符号 表 ， 再 用 get() 进行 访问 ,使 得 

表 中 的 每 个 键 平均 被 命中 10 次 ， 且 有 大 致 相同 次 数 的 未 命中 访问 。 键 为 长 度 从 2 到 50 不 等 的 

随机 字符 串 。 重 复 这 样 的 测试 若干 帝 ， 记 录 每 遍 的 运行 时 间 ， 打 印 平均 运行 时 间或 将 它们 绘制 

成 图 。 

练习 。 编 写 一段 练 习 程 序 ， 用 困难 或 者 极端 的 但 在 实际 应 用 中 可 能 出 现 的 情况 来 测试 我 们 的 有 

序 符号 表 API。 一 些 简单 的 例子 包括 有 序 的 键 列 、 逆 序 的 键 列 、 所 有 键 全 部 相同 或 者 只 含有 两 种 

不 同 的 值 。 

自 组 织 查找 。 编 写 一 段 程序 调用 自 组 织 查 找 的 实现 (请 见 练习 3.1.22 ) ， 用 put 0O) 构造 一 个 大 

小 为 N 的 符号 表 ， 然 后 根据 预先 定义 好 的 概率 分 布 进行 10N 次 命中 查找 。 对 于 N=10*、10*、105 
和 10'， 用 这 有 段 程序 比较 你 在 练习 3.1.22 中 的 实现 和 BinarySearchST 的 运行 时 间 ， 在 预定 义 的 

概率 分 布 中 查找 命中 第 i 小 的 键 的 概率 为 /2 。 

Zipf 法 则 。 用 命中 第 i 小 的 键 的 概率 为 1/(iHw) 的 分 布 重新 完成 上 一 道 练习 ， 其 中 Hy 为 调和 级 数 
(请 见 表 1.4.6 ) 。 这 种 分 布 被 称 为 Zipf 法 则 。 比 较 前 移 编码 和 上 一 道 练习 中 的 在 特定 分 布下 的 

最 优 安排 ,该 安排 将 所 有 键 按 升序 排列 ( 即 按照 它们 的 期 望 频 率 的 降序 排列 ) 。 

性 能 验证 I。 用 各 种 不 同 的 运行 双 倍 测试 ， 取 《双城记 》 的 前 入 个 单词 ， 验 证 FrequencyCounter 

在 使 用 SequentialSearchST 时 所 需 的 运行 时 间 是 N 的 平方 级 别 的 猜想 。 

性 能 验证 I, 解释 FrequencyCounter 在 使 用 BinarySearchST 时 比 使 用 SequentialSearchST 时 
的 性 能 提高 程度 好 于 预期 的 原因 。 

put/get 的 比例 。 当 FrequencyCounter 使 用 BinarySearchST 在 100 万 个 长 度 为 M 位 的 随机 

整数 中 统计 每 个 值 的 出 现 频率 时 ， 根 据 经 验 判断 BinarySearchST 中 putQ 〇 操作 和 get() 操作 

的 耗 时 比 ， 其 中 M=10、20 和 30。 再 统计 tale.txt 并 评估 耗 时 比 ， 并 比较 两 次 的 结果 。 

均 摊 成 本 图 。 修 改 FrequencyCounter、SequentialSearchST 和 BinarySearchST， 统 计 计 算 中 

每 次 put( 操作 的 成 本 并 生成 类 似 本 节 所 示 的 图 。 
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3.1.39 实际 耗 时 。 修 改 FrequencyCounter， 用 Stopwatch 和 StdDraw 绘 图 ， 其 中 x 轴 为 get() 和 
putQ 的 调用 次 数 之 和 ，y 轴 为 总 运行 时 间 ， 每 次 调用 时 就 根据 已 运行 时 间 画 一 个 点 。 分 别 用 
SequentialSearchST 和 BinarySearchST 处 理 《 双 城 记 》 并 讨论 运行 的 结果 。 注 意 : 曲线 中 突 
然 的 跳跃 可 能 是 缓存 导致 的 ， 这 已 经 超出 了 这 个 问题 的 讨论 范围 。 
3.1.40 二 分 查找 的 临界 点 。 找 出 使 用 二 分 查找 比 顺序 查找 要 快 10 000 倍 和 1000 倍 的 入 值 。 分 析 并 预测 
N 的 大 小 并 通过 实验 验证 它 。 
3.1.41 插值 查找 的 临界 点 。 找 出 使 用 插值 查找 比 二 分 查找 要 快 1 倍 、2 倍 和 10 倍 的 YX 值 ， 其 中 假设 所 
有 键 为 随机 的 32 位 整数 (请 见 练习 3.1.24 ) 。 分 析 并 预测 NN 的 大 小 并 通过 实验 验证 它 。 394 
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3.2 ”二 叉 查找 树 


在 本 节 中 我 们 将 学 习 一 种 能 够 将 链表 插入 的 灵活 性 和 有 序数 组 查找 的 高 效 性 结合 起 来 的 符号 表 
实现 。 具 体 来 说 ， 就 是 使 用 每 个 结 点 含有 两 个 链接 ( 链表 中 每 个 结 点 只 含有 一 个 链接 ) 的 二 又 查 找 
树 来 高 效 地 实现 符号 表 ， 这 也 是 计算 机 科学 中 最 重要 的 算法 之 一 。 

首先 ， 我 们 需要 定义 一 些 术语 。 我 们 所 使 用 的 数据 结构 由 


结 点 组 成 ， 结 点 包含 的 链接 可 以 指向 空 (nu11 ) 或 者 其 他 结 点 。 
在 二 又 树 中 ， 每 个 结 点 只 能 有 一 个 父 结 点 指向 自己 (只 有 一 个 例 。 < 

外 ， 也 就 是 根 结 点 ， 它 没有 父 结 点 ) ， 而 且 每 个 结 点 都 只 有 左右 。 ”<、 

两 个 链接 ， 分 别 指向 自己 的 左 子 结 点 和 右 子 结 点 (如 图 321 所。 和 Pe 
示 ) 。 尽 管 链接 指向 的 是 结 点 ， 但 我 们 可 以 将 每 个 链接 看 做 指向 人/ 有 二 上 
了 另 一 棵 二 叉 树 ， 而 这 棵 树 的 根 结 点 就 是 被 指向 的 结 点 。 因 此 我 的 


们 可 以 将 二 又 树 定义 为 一 个 空 链 接 ， 或 者 是 一 个 有 左右 两 个 链接 国生 2 谤 本 二 及 生 
的 结 点 ， 每 个 链接 都 指向 一 棵 (独立 的 ) 子 二 又 树 。 在 二 又 查 a 
找 树 中 ， 每 个 结 点 还 包含 了 一 个 键 和 一 个 值 ， 键 之 间 也 有 顺序 之 分 以 支持 高 效 的 查找 。 


定义 。 一 棵 二 又 查找 树 (BST ) 是 一 棵 二 又 树 , 其 中 每 个 结 点 都 含有 一 个 Comparable 的 键 ( 以 
及 相关 联 的 值 ) 且 每 个 结 点 的 键 都 大 于 其 左 子 树 中 的 任意 结 点 的 键 而 小 于 右 子 树 的 任意 结 点 
的 键 。 


我 们 在 画 出 二 叉 查 找 树 时 会 将 键 写 在 结 点 上 。 我 们 使 用 A 和 R 的 父 结 点 


键 
“A 是 的 左 子 结 点 ”的 说 法 用 键 指 代 结 点 。 我 们 用 连接 Ne 
结 点 的 线 表示 链接 ， 并 将 键 对 应 的 值 写 在 结 点 旁边 若 值 不 食 > 
确定 则 省 略 ) 。 除 了 空 结 点 只 表示 为 向 下 的 一 条 线段 以 外 ， pe 应 的 信 


每 个 结 点 的 链接 都 指向 它 下 方 的 结 点 。 和 以 前 一 样 ， 我 们 在 N 
例子 中 只 会 使 用 索引 测试 用 例 生成 的 单个 字母 作为 键 ， 如 图 比 E 小 的 刍 比 E 大 的 键 
3.2.2 所 示 。 图 3.2.2 详解 二 又 查找 树 


3.2.1 基本 实现 

算法 3.3 定义 了 二 又 查找 树 (BST ) 的 数据 结构 ， 我 们 会 在 本 节 中 用 它 实现 有 序 符号 表 的 
API。 首 先 我 们 要 研究 一 下 这 个 经 典 的 数据 类 型 ， 以 及 与 它 的 特点 紧密 相关 的 get() (查找 ) 和 
put() (插入 ) 方法 的 实现 。 
3.2.1.1 数据 表示 

和 链表 一 样 ， 我 们 骨 套 定义 了 一 个 私有 类 来 表示 二 又 查找 树 上 的 一 个 结 点 。 每 个 结 点 都 含有 一 
个 键 、 一 个 值 、 一 条 左 链接 、 一 条 右 链接 和 一 个 结 点 计数 器 ( 有 需要 时 我 们 会 在 图 中 将 结 点 计数 器 
的 值 写 在 结 点 上 方 ) 。 左 链接 指向 一 棵 由 小 于 该 结 点 的 所 有 键 组 成 的 二 又 查 找 树 ， 右 链接 指向 一 棵 
由 大 于 该 结 点 的 所 有 键 组 成 的 二 叉 查 找 树 。 变 量 N 给 出 了 以 该 结 点 为 根 的 子 树 的 结 点 总 数 。 你 将 会 
看 到 ， 它 简化 了 许多 有 序 符 号 表 的 操作 的 实现 。 算 法 3.3 中 实现 的 私有 方法 sizeQ 会 将 空 链接 的 
值 当 作 0， 这 样 我 们 就 能 保证 以 下 公式 对 于 二 又 树 中 的 任意 结 点 x 总 是 成 立 。 


size(x) = size(x.left) + size(x.right) + 1 
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一 棵 二 又 查找 树 代 表 了 一 组 键 ( 及 其 相应 的 值 ) 的 集合 ， 而 同 
一 个 集合 可 以 用 多 棵 不 同 的 二 又 查找 树 表示 ( 如 图 3.2.3 所 示 ) 。 如 
果 我 们 将 一 棵 二 又 查 找 树 的 所 有 键 投影 到 一 条 直线 上 ， 保 证 一 个 结 
点 的 左 子 树 中 的 键 出 现在 它 的 左边 , 右 子 树 中 的 键 出 现在 它 的 右边 ， 
那么 我 们 一 定 可 以 得 到 一 条 有 序 的 键 列 。 我 们 会 利用 二 又 查找 树 的 
这 种 天 生 的 灵活 性 ， 用 多 棵 二 又 查找 树 表示 同 一 组 有 序 的 键 来 实现 
构建 和 使 用 二 又 查 找 树 的 高 效 算法 。 








3.2.1.2 查找 gi 

一 般 来 说 ， 在 符号 表 中 查找 一 个 键 可 能 得 到 两 种 结果 。 如 果 含 。 ] (fT 2。RQ、， 
有 该 键 的 结 点 存在 于 表 中 ,我 们 的 查找 就 命中 了 ,然后 返回 相应 的 值 。 ”人 GT 
否则 查找 未 命中 ( 并 返回 nu11 ) 。 根 据 数据 表示 的 递归 结构 我 人 马 。。， ， ;! 铸 ! 级 ， 
上 就 能 得 到 ， 在 二 又 查找 树 中 查找 一 个 键 的 递归 算法 ; 如 果树 是 空 人 二 生生 生生 


的 , 则 查找 未 命中 ; 如 果 被 查找 的 键 和 根 结 点 的 键 相等 ,查找 命中 ， 

否则 我 们 就 (递归 地 ) 在 适当 的 子 树 中 继续 查找 。 如 果 被 查找 的 键 ”图 3.2.3 ”两 棵 能 够 表示 同一 
较 小 就 选择 左 子 树 ， 较 大 则 选择 右 子 树 。 算 法 3.3( 续 1 ) 中 递归 的 组 键 的 一 又 查找 树 
get 0 方法 完全 实现 了 这 段 算法 。 它 的 第 一 个 参数 是 一 个 结 点 ( 子 树 的 根 结 点 ) ， 第 二 个 参数 是 
被 查找 的 键 。 代 码 会 保证 只 有 该 结 点 所 表示 的 子 树 才 会 含有 和 被 查找 的 键 相 等 的 结 点 。 和 二 分 查 
找 中 每 次 迭代 之 后 查找 的 区 间 就 会 减 半 一 样 ， 在 二 又 查 找 树 中 ， 随 着 我 们 不 断 向 下 查找 ， 当 前 结 
点 所 表示 的 子 树 的 大 小 也 在 减 小 ( 理想 情况 下 是 减 半 ， 但 至 少 会 有 一 个 结 点 ) 。 当 找到 一 个 含有 
被 查找 的 键 的 结 点 ( 命中 ) 或 者 当前 子 树 变 为 空 ( 未 命中 ) 时 这 个 过 程 才 会 结束 。 从 根 结 点 开始 ， 
在 每 个 结 点 中 查找 的 进程 都 会 递归 地 在 它 的 一 个 子 结 点 上 展开 ， 因 此 一 次 查找 也 就 定义 了 树 的 一 
条 路 径 。 对 于 命中 的 查找 ， 路 径 在 含有 被 查找 的 键 的 结 点 处 结束 。 对 于 未 命中 的 查找 ， 路 径 的 终 
点 是 一 个 空 链接 ， 如 图 3.2.4 所 示 。 


查找 R， 命 中 查找 T， 未 命中 










R 小 于 S， 因 此 继续 

在 左 子 树 中 查找 RT 比 Ss 大， 因此 名 

黑色 的 结 点 有 可 能 续 在 右 子 树 中 查找 

和 被 查找 的 键 匹配 
(E) | 
A RQ \ 久 
yG / 尼 灰色 的 结 点 不 能 

R 大 于 E， 因 此 继 并 。 与 过 找 的 键 匹配 TEEX 小 ， 因 此 改 为 

续 在 右 子 树 中 查找 在 左 子 树 中 查找 
链接 为 空 ， 因 此 T 不 

在 树 中 (未 命中 ) 


图 ~ 后 了 R (命中 ) ， 
返回 相应 的 值 


图 3.2.4 二 又 查找 树 中 的 查找 命中 ( 左 ) 和 未 命中 ( 右 ) 
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算法 3.3 ”基于 二 义 查 找 树 的 符号 表 


public class BST<Key extends Comparable<Key>, Value> 


{ 

private Node root; // 二 又 查找 树 的 根 结 点 

private class Node 

I 
private Key key; // 键 
private Value val; // 值 
private Node left, right; // 指向 子 树 的 链接 
private int Ni; // 以 该 结 点 为 根 的 子 树 中 的 结 点 总 数 


public Node(Key key, Value val, int N) 
{ this.key = key; this.val = val; this.N = N; } 
} 


public int size() 
{ return size(root); } 


private int size(Node x) 

{ 
if (x == nu11) return 0; 
else return x.N; 


} 


public Value get(Key key) 
// 请 见 算法 3.3 ( 续 1 ) 


public void put(Key key, Value val) 
// 请 见 算法 3.3( 续 1 ) 


// max() 、min()、floor() 、cei1ing() 方 法 请 见 算法 3.3 ( 续 2 ) 
// select() 、rank() 方 法 请 见 算法 3.3 ( 续 3 ) 

// delete()、deleteMin()、deleteMax() 方 法 请 见 算 法 3.3 ( 续 4 ) 
// keys() 方 法 请 见 算 法 3.3 ( 续 5 ) 


} 


这 段 代 码 用 二 又 查找 树 实现 了 有 序 符号 表 的 API, 树 由 Node 对 象 组 成 ， 每 个 对 象 都 含有 一 对 键 值 、 
两 条 链接 和 一 个 结 点 计数 器 N。 每 个 Node 对 象 都 是 一 棵 含有 N 个 结 点 的 子 树 的 根 结 点 ， 它 的 左 链接 指向 
一 棵 由 小 于 该 结 点 的 所 有 键 组 成 的 二 又 查找 树 ， 右 链接 指向 一 棵 由 大 于 该 结 点 的 所 有 键 组 成 的 二 叉 查 找 
树 。root 变量 指向 二 又 查找 树 的 根 结 点 Node 对 象 ( 这 棵 树 包 含 了 符号 表 中 的 所 有 键 值 对 ) 。 本 节 会 陆 
续 给 出 其 他 方法 的 实现 。 


算法 3.3( 续 1) 的 实现 过 程 如 下 所 示 。 
算法 3.3〈 续 1) 二 又 查找 树 的 查找 和 排序 方法 的 实现 


public Value get(Key key) 

{ return get(root, key); } 

private Value get(Node x, Key key) 

{ // 在 以 x 为 根 结 点 的 子 树 中 查找 并 返回 Kkey 所 对 应 的 值 ; 
// 如 果 找 不 到 则 返回 nu11 
if (x == nul1) return nu]11; 
int cmp = key.compareTo(x.key); 


ii 个 (cmp < 0) return get(x.left, key); 
else if (cmp > 0) return get(x.right, key); 
else return x.val; 


} 


public void put(Key key, Value val) 

{ // 查找 key， 找 到 则 更 新 它 的 值 ， 和 否则 为 它 创 建 一 个 新 的 结 点 
root = put(root, key, val); 

3 


private Node put(Node x, Key key, Value val) 
{ 
// 如 果 key 存 在 于 以 X 为 根 结 点 的 子 树 中 则 更 新 它 的 值 ; 
// 否则 将 以 key 和 val 为 键 值 对 的 新 结 点 插入 到 该 子 树 中 
if (x == null) return new Node(key, val, 1); 
int cmp = key.compareTo(x.key); 
if (cmp < 0) x.left = put(x.left, 


else x.val = val; 
x.N = size(x.left) + size(x.right) + 1; 
return x; 


} 


key, val); 
else if (cmp > 0) x.right = put(x.right, key, val); 
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这 段 代码 实现 了 有 序 符号 表 API 中 的 put QO 和 get() 方法 ， 它 们 的 递归 实现 也 是 本 章 稍 后 将 会 讨论 
的 其 他 几 种 实现 的 模板 。 每 个 方法 的 实现 既 可 以 看 做 是 实用 的 代码 ， 也 可 以 看 做 是 之 前 讨论 的 递 推 猜想 


的 证 明 。 


3.2.1.3 插入 

算法 3.3( 续 1) 中 的 查找 代码 几乎 和 二 分 查找 的 一 样 
简单 ， 这 种 简洁 性 是 二 叉 查找 树 的 重要 特性 之 一 。 而 二 又 查 
找 树 的 男 一 个 更 重要 的 特性 就 是 插入 的 实现 难度 和 查找 差 不 
多 。 当 查找 一 个 不 存在 于 树 中 的 结 点 并 结束 于 一 条 空 链接 时 ， 
我 们 需要 做 的 就 是 将 链接 指向 一 个 含有 被 查找 的 键 的 新 结 点 
( 详 见 图 3.2.5 ) 。 算 法 3.3( 续 1) 中 递归 的 put0) 方法 的 
实现 逻辑 和 递归 查找 很 相似 : 如 果树 是 空 的 ， 就 返回 一 个 含 
有 该 键 值 对 的 新 结 点 ; 如 果 被 查找 的 键 小 于 根 结 点 的 键 ， 我 
们 会 继续 在 左 子 树 中 插入 该 键 ， 否 则 在 右 子 树 中 插入 该 键 。 
3.2.1.4 ”递归 

这 些 递归 实现 值得 我 们 花 点 儿 时 间 去 理解 其 中 的 运行 
细节 。 可 以 将 递归 调用 前 的 代码 想象 成 沿 着 树 向 下 走 : 它 会 
将 给 定 的 键 和 每 个 结 点 的 键 相 比 较 并 根据 结果 向 左 或 者 向 
右 移动 到 下 一 个 结 点 。 然 后 可 以 将 递归 调用 后 的 代码 想象 成 
沿 着 树 向 上 有 爬 。 对 于 get() 方法 ， 这 对 应 着 一 系列 的 返回 
指令 ( return ) ,但 是 对 于 put0) 方法 ， 这 意味 着 重 置 搜 
索 路 径 上 每 个 父 结 点 指向 子 结 点 的 链接 ， 并 增加 路 径 上 每 个 
结 点 中 的 计数 器 的 值 。 在 一 棵 简单 的 二 又 查找 树 中 ， 唯 一 的 
新 链接 就 是 在 最 底层 指向 新 结 点 的 链接 ， 重 置 更 上 层 的 链接 





插入 L 

查找 L 的 操作 终 -一 

止 于 这 条 链接 
397 
400 


创建 新 结 点 —Q® 


沿 搜索 路 径 向 上 7 
更 新 链接 并 增加 
结 点 计数 器 的 值 


图 3.2.5 二 又 查找 树 的 插入 操作 


254 和 第 3 章 查 找 


可 以 通过 比较 语句 来 避免 。 同 样 ， 我 们 只 需要 将 路 径 上 每 个 结 点 中 的 计数 器 的 值 加 1， 但 我 们 使 用 了 
更 加 通用 的 代码 ， 使 之 等 于 结 点 的 所 有 子 结 点 的 计数 器 之 和 加 1。 在 本 节 和 下 一 节 中 ， 我 们 会 学 习 一 
些 更 加 高 级 但 原理 相同 的 算法 ， 但 它们 在 搜索 路 径 上 需要 改变 的 链接 更 多 ， 也 需要 适应 性 更 强 的 代码 
来 更 新 结 点 计数 器 。 基 本 的 二 又 查找 树 的 实现 常常 是 非 递归 的 〈 请 见 练习 3.2.12 ) 一 一 我 们 在 实现 中 
使 用 了 递归 ， 一 来 是 为 了 便于 读者 理解 代码 的 工作 方式 ， 二 来 也 是 为 学 习 更 加 复杂 的 算法 做 准备 。 
图 3.2.6 是 对 我 们 的 标准 索引 用 例 轨迹 的 一 份 详细 的 研究 , 它 向 你 展示 了 二 又 树 是 如 何 生长 的 。 
新 结 点 会 连接 到 树 底层 的 空 链接 上 , 树 的 其 他 部 分 则 不 会 改变 。 例 如 , 第 一 个 被 插入 的 键 就 是 根 结 点 ， 
第 二 个 被 插入 的 键 是 根 结 点 的 两 个 子 结 点 之 一 ， 以 此 类 推 。 因 为 每 个 结 点 都 含有 两 个 链接 ， 树 会 逐 
渐 长 大 而 不 是 萎缩 不仅 如 此 , 因为 只 有 查找 或 者 插 和 路径 上 的 结 点 才 会 被 访问 ,所 以 随 着 树 的 增长 ， 
401| 被 访问 的 结 点 数量 占 树 的 总 结 点 数 的 比例 也 会 不 断 的 降低 。 


键 值 键 值 


s 0 3 (S) 
让 入 
(S) 
人 黑色 的 结 点 在 查 
找 中 会 被 访问 
(S) 
(BE 黑色 加 粗 
i (< 的 是 新 结 点 
(E) 


> 下 灰色 的 结 点 
不 会 被 访问 











图 3.2.6 ”使 用 二 又 查找 树 的 标准 索引 用 例 的 轨迹 
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3.2.2 分 析 最 好 情况 人 有) 
使 用 二 又 查找 树 的 算法 的 运行 时 间 取决 于 树 的 形状 ， 而 a BE Ry” 要 
树 的 形状 又 取决 于 键 被 插入 的 先后 顺序 。 在 最 好 的 情况 下 ， 


一 棵 含有 V 个 结 点 的 树 是 完全 平衡 的 ， 每 条 空 链接 和 根 结 点 
的 距离 都 为 ~ lgN。 在 最 坏 的 情况 下 ， 搜 索 路 径 上 可 能 有 N 
个 结 点 。 如 图 3.2.7 所 示 。 但 在 一 般 情 况 下 树 的 形状 和 最 好 情 
况 更 接近 。 

对 于 很 多 应 用 来 说 ,图 3.2.8 所 示 的 简单 模型 都 是 适用 的 : 
我 们 假设 键 的 分 布 是 (均匀) 随机 的 ， 或 者 说 它们 的 插入 顺 
序 是 随机 的 。 对 这 个 模型 的 分 析 而 言 ， 二 又 查找 树 和 快速 排 
序 几乎 就 是 “双胞胎 ”。 树 的 根 结 点 就 是 快速 排序 中 的 第 一 
个 切 分 元 素 ( 左 侧 的 键 都 比 它 小 ， 右 侧 的 键 都 比 它 大 ) ， 而 
这 对 于 所 有 的 子 树 同样 适用 ， 这 和 快速 排序 中 对 子 数 组 的 递 
归 排 序 完 全 对 应 。 这 使 我 们 能 够 分 析 得 到 二 又 查找 树 的 一 些 








性 质 。 3.2.7 二 又 查 找 树 的 可 能 形状 


命题 C。 在 由 入 个 随机 键 构造 的 二 又 查找 树 中 ， 查 找 命中 平均 所 需 的 比较 次 数 为 -2InN( 约 
1.39lgN) 。 


证 明 。 一 次 结束 于 给 定 结 点 的 命中 查找 所 需 的 比较 次 数 为 查找 路 径 的 深度 加 1。 如 果 将 树 中 的 所 


有 结 点 的 深度 加 起 来 ， 我 们 就 能 够 得 到 一 棵 树 的 内 部 路 径 长 度 。 因 此 ， 在 二 又 查找 树 中 的 平均 比 
较 次 数 即 为 平均 内 部 路 径 长 度 加 1。 我 们 可 以 使 用 2.3 节 的 命题 K 的 证 明 得 到 它 : 令 Cx 为 由 N 
个 随机 排序 的 不 同 键 构造 得 到 的 二 又 查找 树 的 内 部 路 径 长 度 , 则 查找 命中 的 平均 成 本 为 ( 1+Cw/V )。 
我 们 有 Co=Ci=0， 且 对 于 N>1 我 们 可 以 根据 二 又 查找 树 的 递归 结构 直接 得 到 一 个 归纳 关系 式 ， 
CN-—1+(Cot Cw YN+(Cit Cw a) Nt:t(Cy tCoO/N 


其 中 -1 这 一 项 表示 根 结 点 使 得 树 中 的 所 有 N-1 个 非 根 结 点 的 路 径 上 都 加 了 1。 表达 式 的 
其 他 项 代表 了 所 有 地 树 ， 它 们 的 计算 方法 和 大 小 为 NN 的 二 又 查 找 树 的 方法 相同 。 整 理 表达 式 后 
我 们 会 发 现 ， 这 个 归纳 公式 和 我 们 在 2.3 节 中 为 快速 排序 得 到 的 公式 几乎 完全 相同 ， 因 此 我 们 
同样 可 以 得 到 Cw2NMnN。 


命题 D。 在 由 NN 个 随机 键 构 造 的 二 又 查 找 树 中 插入 操作 和 查找 未 命中 平均 所 需 的 比较 次 数 为 
~2InN ( 约 1.39lgN)。 


证 明 。 插入 操作 和 查找 未 命中 平均 比 查找 命中 需要 一 次 额外 的 比较 。 这 一 点 由 归纳 法 不 难得 到 
(请 见 练习 3.2.16 ) 。 


命题 C 说 明 在 二 又 查找 树 中 查找 随机 键 的 成 本 比 二 分 查找 高 约 39%。 命 题 D 说明 这 些 额 外 的 
成 本 是 值得 的 ， 因 为 插入 一 个 新 键 的 成 本 是 对 数 级 别 的 一 一 这 是 基于 二 分 查找 的 有 序数 组 所 不 具备 
的 灵活 性 ， 因 为 它 的 插入 操作 所 需 访问 数组 的 次 数 是 线性 级 别 的 。 和 快速 排序 一 样 ， 比 较 次 数 的 标 


准 差 很 小 ， 因 此 YX 越 大 这 个 公式 越 准确 。 
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实验 

我 们 的 随机 键 模型 和 典型 的 符号 表 使 用 情况 是 否 相 符 ? 按照 惯例 ， 这 个 问题 的 答案 需要 具体 问 
题 具 体 分 析 ， 因 为 在 不 同 的 应 用 场景 中 性 能 的 差别 可 能 很 大 。 幸 好 ， 对 于 大 多 数 用 例 ， 这 个 模型 都 
能 很 好 地 适应 。 


作为 例子 ， 我 们 研究 用 FrequencyCounter 处 理 长 度 大 于 等 于 8 的 单词 时 put() 操作 的 成 本 。 
从 图 3.2.9 可 以 看 到 ， 每 次 操作 的 平均 成 本 从 BinarySearchST 的 484 次 数组 访问 降低 到 了 二 又 查 
找 树 的 13 次 ， 这 也 再 次 验证 了 理论 模型 所 预测 的 对 数 级 别 的 性 能 。 根 据 命题 C 和 命题 D， 这 个 数 
值 的 合理 大 小 应 该 是 符号 表 大 小 的 自然 对 数 的 两 倍 左右 ， 因 为 对 于 一 个 几乎 充满 的 符号 表 ， 大 多 数 
操作 都 是 查找 。 这 个 预测 至 少 有 以 下 不 准确 性 : 

口 很 多 操作 都 是 在 较 小 的 符号 表 中 进行 的 ; 

口 键 不 随机 ; 

口 符号 表 可 能 太 小 ， 近 似 值 2InN 不 准确 。 

无 论 如 何 , 通过 表 3.2.1 你 都 能 看 到 , 对 于 FrequencyCounter 这 个 预测 的 误差 只 有 若干 次 比较 。 

事实 上 ， 大 多 数 误差 都 能 通过 对 近似 值 的 数学 表达 式 的 改进 得 到 解释 ( 请 见 练习 3.2.35 ) 。 


本 


图 3.2.8 一 棵 典型 的 二 又 查找 树 ， 由 256 个 随机 键 组 成 


相 比 之 前 的 图 像 
20 -比例尺 放大 250 售 


13.9 





0 操作 14 350 


3.2.9 ”使 用 二 又 查 找 树 ， 运 行 java FrequencyCounter 8 < tale.txt 的 成 本 
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表 3.2.1 使 用 二 又 查找 树 的 FrequencyCounter 的 每 次 put() 操作 平均 所 需 的 比较 次 数 
















leipzig1M .txt 






WE 本 比较 次 数 
单亲 数 | 不 同 单词 数 | 模 开 预测 | 实际 次 直 








534 580 





所 有 单词 135 635 21 1914 55 23.4 



















K 度 大 i 
De 于 等 于 8 的 | 14350 4239597 | 299 593 21.4 
PERT a 1610829 | 165555 19.3 












的 单词 


3.2.3 ”有 序 性 相关 的 方法 与 删除 操作 
二 又 查找 树 得 以 广泛 应 用 的 一 个 重要 原因 就 是 它 能 够 保持 键 的 有 序 性 ， 因 此 它 可 以 作为 实现 有 
序 符号 表 API (请 见 3.1.2 节 ) 中 的 众多 方法 的 基础 。 这 使 得 符号 表 的 用 例 不 仅 能 够 通过 键 还 能 通 
过 键 的 相对 顺序 来 访问 键 值 对 。 下 面 ， 我 们 要 研究 有 序 符号 表 API 中 各 个 方法 的 实现 。 
3.2.3.1 最 大 键 和 最 小 键 
如 果 根 结 点 的 左 链接 为 空 ， 那 么 一 棵 二 又 查找 春 找 floor(G) 
树 中 最 小 的 键 就 是 根 结 点 ; 如 果 左 链接 非 空 ， 那 么 
树 中 的 最 小 键 就 是 左 子 树 中 的 最 小 键 。 这 不 仅 描 述 
了 算法 3.3( 续 2) 中 minQ 方法 的 递归 实现 ， 同 时 





也 递 推 地 证 明了 它 能 够 在 二 叉 查 找 树 中 找到 最 小 的 a 
键 。 简 单 的 循环 也 能 等 价 实现 这 段 描述 ， 但 为 了 保 定 在 左 子 树 中 
持 一 致 性 我 们 使 用 了 递归 。 我 们 可 以 让 递归 调用 返 ® 
回 键 Key 而 非 结 点 对 象 Node， 但 我 们 后 面 还 会 用 到 O ®) 
这 方法 来 找 出 含有 最 小 键 的 结 点 。 找 出 最 大 键 的 方 /中 
法 也 是 类 似 的 ， 只 是 变 为 查找 右 子 树 而 已 。 G 大 于 E, 全 此 并 
3.2.3.2 ”向 上 取 整 和 向 下 取 整 floor CG) 可 
如 果 给 定 的 键 key 小 于 二 叉 查 找 树 的 根 结 点 的 Ne 
键 ， 那 么 小 于 等 于 key 的 最 大 键 (floor ) 一 定 在 根 
结 点 的 左 子 树 中 ;如 果 给 定 的 键 key 大 于 二 又 查找 > 
树 的 根 结 点 ， 那 么 只 有 当 根 结 点 右 子 树 中 存在 小 于 Pp of 
等 于 key 的 结 点 时 ， 小 于 等 于 key 的 最 大 键 才 会 出 能 找到 floor(G) 
现在 右 子 树 中 ， 否 则 根 结 点 就 是 小 于 等 于 key 的 最 
大 键 。 这 段 描述 说 明了 fioor0 方法 的 递归 实现 ， ke 
同时 也 递 推 地 证 明了 它 能 够 计算 出 预期 的 结果 。 将 最 终结 果 


“ 左 ” 变 为 “ 右 ”( 同时 将 小 于 变 为 大 于 ) 就 能 够 
得 到 cei1ing() 的 算法 。 向 上 取 整 函数 的 计算 如 图 
3.2.10 所 示 。 
3.2.3.3 选择 操作 

“二 又 查找 树 中 的 选择 操作 和 2.5 节 中 我 们 学 习 过 的 基于 切 分 的 数组 选择 操作 类 似 。 我 们 在 二 又 
查找 树 的 每 个 结 点 中 维护 的 子 树 结 点 计数 器 变量 N 就 是 用 来 支持 此 操作 的 。 


图 3.2.10 计算 floor(0) 函数 
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算法 3.3 ( 续 2) ”二 又 查找 树 中 max()、min()、floor()、ceiling() 方法 的 实现 


public Key min() 

是 
return min(root).key; 

} 

private Node min(Node x) 

£ 
if (x.left == nul11) return x; 
return min(x.left); 


} 
public Key floor(Key key) 
Node x = floor(root, key); 
if (x == null) return null; 
return x.key; 
了 
private Node floor(Node x, Key key) 
{ 
if (x == null1) return null; 


int cmp = key.compareTo(x.key); 

if (cmp == 0) return x; 

if (cmp < 0) return floor(x.left, key); 
Node 七 = floor(x.right, key); 

if (t != nul1) return +t; 

else return x; 


} 

每 个 公有 方法 都 对 应 着 一 个 私有 方法 ， 它 接受 一 个 额外 的 链接 作为 参数 指向 某 个 结 点 ， 通 过 正文 
中 描述 的 递归 方法 查找 返回 nu11 或 者 含有 指定 Key 的 结 点 Node。max() 和 ceiling() 的 实现 分 别 与 
min() 和 floor(0) 方法 基本 相同 ， 只 是 将 代码 中 的 left 和 right (以 及 这 和 和 ) 调换 而 已 。 


假设 我 们 想 找到 排名 为 上 的 键 ( 即 树 中 正好 有 大 个 小 于 它 的 键 )。 如 果 左 子 树 中 的 结 点 数 1 大 于 ， 
那么 我 们 就 继续 (递归 地 ) 在 左 子 树 中 查找 排名 为 上 的 键 ; 如 果 1 等 于 k, 我 们 就 返回 根 结 点 中 的 键 ; 
如 果 t 小 于 k， 我们 就 (递归 地 ) 在 右 子 树 中 查找 排名 为 (Kt_1 ) 的 键 。 和 刚才 一 样 ， 这 段 描 述 既 
说 明了 select0 方法 的 递归 实现 同时 也 证 明了 它 的 正确 性 ， 此 过 程 如 图 3.2.11 所 示 。 
3.2.3.4 排名 

rank() 是 select() 的 北方 法 ， 它 会 返回 给 定 键 的 排名 。 它 的 实现 和 select() 类 似 : 如 果 给 
定 的 键 和 根 结 点 的 键 相 等 ， 我 们 返回 左 子 树 中 的 结 点 总 数 t; 如 果 给 定 的 键 小 于 根 结 点 ， 我 们 会 返 
回 该 键 在 左 子 树 中 的 排名 (递归 计算 ) ; 如 果 给 定 的 键 大 于 根 结 点 ， 我 们 会 返回 tt1 ( 根 结 点 ) 加 
上 它 在 右 子 树 中 的 排名 〈 递归 计算 ) 。 

二 叉 查 找 树 中 选择 和 排名 操作 的 实现 如 算法 3.3( 续 3 ) 所 示 。 


算法 3.3 ( 续 3) 二 又 查找 树 中 select() 和 rank0 方法 的 实现 





public Key select(int k) 
{ 

return select(root, k).key; 
} 


private Node select(Node x, int k) 


{  // 返回 排名 为 K 的 结 点 
if (x == nul11) return null; 
int t = size(x.1left); 


村 还 (t > k) return select(x.left, k); 
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else if (t < k) return select(x.right, k-t-1); 


else return x; 

} 

public int rank(Key key) 

{ return rank(key, root); } 

private int rank(Key key, Node x) 

{ // 返回 以 Xx 为 根 结 点 的 子 树 中 小 于 X .Key 的 键 的 数量 
if (x == nul1) return 0; 
int cmp = key.compareTo(x.key); 


下 (cmp < 0) return rank(key, x.left); 


else if (cmp > 0) return 1 + size(x.left) + rank(key, x.right); 


else return size(x.left); 


} 


这 段 代 码 使 用 了 和 我 们 已 经 在 本 章 中 学 习 过 的 其 他 实现 中 一 样 的 递归 模式 实现 了 select() 和 
rank() 方法 。 它 依赖 于 本 节 开 始 处 给 出 的 size() 方法 来 统计 每 个 结 点 以 下 的 子 结 点 总 数 。 


3.2.3.5 ”删除 最 大 键 和 删除 最 小 键 

二 叉 查 找 树 中 最 难 实现 的 方法 就 是 delete() 
方法 ， 即 从 符号 表 中 删除 一 个 键 值 对 。 作 为 热身 运 
动 ， 我 们 先 考 虑 deleteMin() 方法 (删除 最 小 键 
所 对 应 的 键 值 对 ) ， 如 图 3.2.12 所 示 。 和 putQ 〇 一 
样 ， 我 们 的 递归 方法 接受 一 个 指向 结 点 的 链接 ， 并 
返回 一 个 指向 结 点 的 链接 。 这 样 我 们 就 能 够 方便 地 
改变 树 的 结构 , 将 返回 的 链接 赋 给 作为 参数 的 链接 。 
对 于 deleteMin()， 我 们 要 不 断 深入 根 结 点 的 左 子 
树 中 直至 遇见 一 个 空 链接 ， 然 后 将 指向 该 结 点 的 链 
接 指向 该 结 点 的 右 子 树 ( 只 需要 在 递归 调用 中 返回 
它 的 右 链接 即 可 ) 。 此 时 已 经 没有 任何 链接 指向 要 
被 删除 的 结 点 ， 因 此 它 会 被 垃圾 收集 器 清理 掉 。 我 
们 给 出 的 标准 递归 代码 在 删除 结 点 后 会 正确 地 设置 
它 的 父 结 点 的 链接 并 更 新 它 到 根 结 点 的 路 径 上 的 所 
有 结 点 的 计数 器 的 值 。deleteMax (0) 方法 的 实现 和 
deleteMin() 完全 类 似 。 
3.2.3.6 ”删除 操作 

我 们 可 以 用 类 似 的 方式 删除 任意 只 有 一 个 子 结 
点 (或 者 没有 子 结 点 ) 的 结 点 ， 但 应 该 怎样 删除 一 
个 拥有 两 个 子 结 点 的 结 点 呢 ? 删除 之 后 我 们 要 处 理 
两 棵 子 树 ， 但 被 删除 结 点 的 父 结 点 只 有 一 条 空 出 来 
的 链接 。T Hibbard 在 1962 年 提出 了 解决 这 个 难题 
的 第 一 个 方法 ， 在 删除 结 点 x 后 用 它 的 后 继 结 点 填 


计算 select(3)， 
即 找 出 排名 为 3 的 键 


左 子 树 中 共有 8 个 结 
点 ， 因 此 继续 在 左 子 
树 中 查找 排名 为 3 的 键 





左 子 树 中 共有 2 个 结 点 ， 
因此 继续 在 右 子 树 中 查 
找 排名 为 3-2-1=0 的 键 


2 
a 


因此 继续 在 左 子 树 中 搜 
索 排名 为 0 的 键 


7 多 
左 子 树 中 共有 0 个 结 点 
且 正在 查找 排名 为 0 的 
键 ， 因 此 返回 H 


图 3.2.11 二 又 查找 树 中 的 select() 操作 
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补 它 的 位 置 。 因 为 x 有 一 个 右 子 结 点 ， 因 此 它 的 后 继 结 点 就 是 其 右 子 树 中 的 最 小 结 点 。 这 样 的 替换 
仍然 能 够 保证 树 的 有 序 性 ， 因 为 x.key 和 它 的 后 继 结 点 的 键 之 间 不 存在 其 他 的 键 。 我 们 能 够 用 4 个 
简单 的 步骤 完成 将 x 替换 为 它 的 后 继 结 点 的 任务 ( 具体 过 程 如 图 3.2.13 所 示 ) : 

口 将 指向 即将 被 删除 的 结 点 的 链接 保存 为 t; 

口 将 x 指向 它 的 后 继 结 点 min(t.right); 

口 将 x 的 右 链接 ( 原本 指向 一 棵 所 有 结 点 都 大 于 x.key 的 二 叉 查 找 树 ) 指向 deleteMin(t. 

right) ， 也 就 是 在 删除 后 所 有 结 点 仍然 都 大 于 x. key 的 子 二 又 查找 树 ; 
口 将 x 的 左 链接 (本 为 空 ) 设 为 t.1eft (其 下 所 有 的 键 都 小 于 被 删除 的 结 点 和 它 的 后 继 


Hu、 


后 继 结 点 为 
min(t.right) 


不 断 检索 左 子 
树 直 至 遇见 空 
的 左 链接 、\ 
VN 
RE 


Xx 
Wi t.left X deleteMinCt. right) 
垃圾 回收 
递归 调用 后 更 新 
链接 和 结 点 计数 器 。 ，， 7 
De AS 
“在 递归 调用 后 
更 新 链接 和 结 
点 计数 器 
图 3.2.12 ”删除 二 叉 查 找 树 中 的 最 小 结 点 图 3.2.13 二 又 查找 树 中 的 删除 操作 


在 递归 调用 后 我 们 会 修正 被 删除 的 结 点 的 父 结 点 的 链接 ， 并 将 由 此 结 点 到 根 结 点 的 路 径 上 的 所 
有 结 点 的 计数 器 减 1 ( 这 里 计数 器 的 值 仍然 会 被 设 为 其 所 有 子 树 中 的 结 点 总 数 加 一 ) 。 尽 管 这 种 方 
法 能 够 正确 地 删除 一 个 结 点 ， 它 的 一 个 缺陷 是 可 能 会 在 某 些 实际 应 用 中 产生 性 能 问题 。 这 个 问题 在 
于 选用 后 继 结 点 是 一 个 随意 的 决定 ， 且 没有 考虑 树 的 对 称 性 。 可 以 使 用 它 的 前 继 结 点 吗 ? 实际 上 ， 
408| 前 继 结 点 和 后 继 结 点 的 选择 应 该 是 随机 的 。 详 细 讨论 请 见 练习 3.2.42。 
410 二 又 查找 树 中 删除 操作 的 实现 如 算法 3.3 ( 续 4) 所 示 。 


算法 3.3 ( 续 4) 二 叉 查 找 树 的 delete() 方法 的 实现 


public void deleteMin() 
{ 
root = deleteMin(root); 


4 


private Node deleteMin(Node x) 
if (Cx.left == null) return x.right; 
x.left = deleteMin(x.left); 
x.N = size(x.left) + size(x.right) + 1; 
return x; 


} 


public void delete(Key key) 
{ root = delete(root, key); } 


private Node delete(Node x, Key key) 
{ 
if (x == nul1) return null; 
int cmp = key.compareTo(x.key); 
下 (cmp < 0) x.left 


else 
t 
if (x.right == null) return x.left; 
if (x.left == null) return x.right; 
Node 七 = x; 
x = min(Ct.right); // 请 见 算法 3.3 ( 续 2) 
x.right = deleteMin(t.right); 
x.left = t.left; 
} 
x.N = size(x.left) + size(x.right) + 1; 
return x; 


} 


= delete(x.left, key); 
else if (cmp > 0) x.right = delete(x.right, key); 
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如 前 文 所 述 ， 这 段 代码 实现 了 Hibbard 的 二 又 查找 树 中 对 结 点 的 即时 删除 。delete0) 方法 的 代码 
很 简洁 ， 但 不 简单 。 也 许 理解 它 的 最 好 办 法 就 是 读 懂 正文 中 的 讲解 ， 试 着 自己 实现 它 并 对 比 自己 的 代码 
和 这 段 代码 。 一 般 情况 下 这 段 代码 的 效率 不 错 ， 但 对 于 大 规模 的 应 用 来 说 可 能 会 有 一 点 问题 ( 请 见 练习 
3.2.42 ) 。deleteMax() 的 实现 和 deleteMin() 类 似 ， 只 需 将 左 改 为 右 即 可 。 411 


3.2.3.7 ”范围 查找 


要 实现 能 够 返回 给 定 范围 内 键 的 keys (0) 方法 , 我 们 首先 需要 一 个 遍历 二 叉 查找 树 的 基本 方法 ， 
叫做 中 序 遍 历 。 要 说 明 这 个 方法 ,我 们 先 看 看 如 何 能 够 将 二 又 查找 树 中 的 所 有 键 按照 顺序 打印 出 来 。 


要 做 到 这 一 点 ， 我 们 应 该 先 打 印 出 根 结 点 的 左 子 树 中 的 
所 有 键 ( 根据 二 叉 查 找 树 的 定义 它们 应 该 都 小 于 根 结 点 
的 键 ) ， 然 后 打印 出 根 结 点 的 键 ， 最 后 打印 出 根 结 点 的 
右 子 树 中 的 所 有 键 (根据 二 又 查找 树 的 定义 它们 应 该 都 
大 于 根 结 点 的 键 ) ， 如 右 侧 的 代码 所 示 。 

和 以 前 一 样 ， 刚 才 的 描述 也 递 推 地 证 明了 这 上段 
代码 能 够 顺序 打印 树 中 的 所 有 键 。 为 了 实现 接受 两 


private void print(Node x) 
{ 
if (x == nul1) return; 
print(x. left); 
StdOut.printin(x.key); 
print(x.right); 


按 顺 序 打 印 二 又 查 找 树 中 的 所 有 键 
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说 


找 


个 参数 并 能 够 将 给 定 范围 内 的 键 返回 给 用 例 的 keys QO 方法， 我 们 可 以 修改 一 下 这 段 代码 ， 将 
所 有 落 在 给 定 范围 以 内 的 键 加 入 一 个 队列 Queue 并 跳 过 那些 不 可 能 含有 所 查找 键 的 子 树 。 和 
BinarySearchST 一 样 ， 用 例 不 需要 知道 我 们 使 用 Queue 来 收集 符合 条 件 的 键 。 我 们 使 用 什么 数 
据 结构 来 实现 Iterable<Key> 并 不 重要 ， 用 例 只 要 能 够 使 用 Java 的 foreach 语句 遍历 返回 的 所 
有 键 就 可 以 了 。 

二 又 查 找 树 的 范围 查找 操作 的 实现 如 算法 3.3( 续 5) 所 示 。 


算法 3.3 ( 续 5) ”二 叉 查 找 树 的 范围 查找 操作 


public Iterable<Key> keys() 
{ return keys(minO), maxO); +} 


public Iterable<Key> keys(Key 1lo, Key hi) 
和 
Queue<Key> queue = new Queue<Key>() ; 
keys(root, queue, 10, hi); 
return queue; 


: 


private void keys(Node x, Queue<Key> queue, Key 1o, Key hi) 
4 

if (x == null) return; 

int cmplo = lo.compareTo(x.key); 

int cmphi = hi.compareTo(x.key); 

if (cmplo < 0) keys(x.left, queue, 10, hi); 

if (cmplo <= 0 && cmphi >= 0) queue.enqueue(x.key); 

if (cmphi > 0) keys(x.right, queue, 10, hi); 
} 


为 了 确保 以 给 定 结 点 为 根 的 子 树 中 所 有 在 指定 范围 之 内 的 键 加 入 队列 ， 我 们 会 (递归 地 ) 查找 根 结 
点 的 左 子 树 ， 然 后 查找 根 结 点 ， 然 后 ( 递归 地 ) 查找 根 结 点 的 右 子 树 。 


在 [F. .T 磋 之 间 进 行 查找 


会 比较 黑色 加 粗 的 键 但 它 
们 并 不 在 查找 范围 之 内 





(L)  (P) 黑色 的 是 落 在 查 
找 范 围 之 内 的 键 


二 又 查找 树 的 范围 查找 








3.2.3.8 ”性 能 分 析 
二 叉 查 找 树 中 和 有 序 性 相关 的 操作 的 效率 如 何 ” 要 研究 这 个 问题 , 我 们 首先 要 知道 树 的 高 度 ( 即 


树 中 任意 结 点 的 最 大 深度 ) 。 给 定 一 棵 树 ， 树 的 高 度 决定 了 所 有 操作 在 最 坏 情况 下 的 性 能 ( 范围 查 
找 除 外 ， 因 为 它 的 额外 成 本 和 返回 的 键 的 数量 成 正比 ) 。 
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命题 E。 在 一 棵 二 又 查找 树 中 ， 所 有 操作 在 最 坏 情况 下 所 需 的 时 间 都 和 树 的 高 度 成 正比 。 


证 明 。 树 的 所 有 操作 都 沿 着 树 的 一 条 或 两 条 路 径 行进 。 根 据 定 义 ， 路 径 的 长 度 不 可 能 大 于 树 的 
we 


我 们 估计 树 的 高 度 ( 即 最 坏 情况 下 的 成 本 ) 将 会 大 于 我 们 在 3.2.2 节 中 定义 的 平均 内 部 路 径 
长 度 ( 这 个 平均 值 已 经 包含 了 所 有 较 短 的 路 径 ) ， 但 会 高 多 少 呢 ? 也 许 在 你 看 来 这 个 问题 和 命 
题 C 和 命题 D 解答 的 问题 类 似 ， 但 它 的 解答 其 实 要 困难 得 多 ， 完 全 超出 了 本 书 的 范畴 。1979 年 ， 
J. Robson 证 明了 随机 键 构造 的 二 又 查找 树 的 平均 高 度 为 树 中 结 点 数 的 对 数 级 别 ， 随 后 L. Devroye 证 
明了 对 于 足够 大 的 W， 这 个 值 趋 近 于 2.991lgN。 因 此 ， 如 果 我 们 的 应 用 中 的 插入 操作 能 够 适用 于 这 | ， 
个 随机 模型 ， 我 们 距离 实现 一 个 支持 对 数 级 别 的 所 有 操作 的 符号 表 的 目标 就 已 经 不 远 了 。 我 们 可 以 
认为 随机 构造 的 树 中 的 所 有 路 径 长 度 都 小 于 31gN， 但 如 果 构 造 树 的 键 不 是 随机 的 怎么 办 ?在 下 一 节 
中 你 会 看 到 在 实际 应 用 中 这 个 问题 其 实 没 有 意义 ， 因 为 还 有 平衡 二 又 查找 树 ， 它 能 保证 无 论 键 的 插 
入 顺序 如 何 ， 树 的 高 度 都 将 是 总 键 数 的 对 数 。 

总 的 来 说 ， 二 又 查找 树 的 实现 并 不 困难 ， 且 当 树 的 构造 和 随机 模型 近似 时 在 各 种 实际 应 用 场景 
中 它 都 能 进行 快速 地 查找 和 插入 。 对 于 我 们 的 例子 ( 以 及 其 他 许多 实际 应 用 场景 ) 来 说 ， 二 又 查找 
树 将 不 可 能 完成 的 任务 变 为 可 能 。 另 外 ， 许 多 程序 员 都 偏爱 基于 二 又 查找 树 的 符号 表 的 原因 是 它 还 
支持 高 效 的 rank()、select()、delete() 以 及 范围 查找 等 操作 。 但 同时 ， 正 如 我 们 所 强调 过 的 ， 
在 某 些 场景 中 二 叉 查 找 树 在 最 坏 情 况 下 的 恶劣 性 能 仍然 是 不 可 接受 的 。 二 叉 查 找 树 的 基本 实现 的 良 
好 性 能 依赖 于 其 中 的 键 的 分 布 足够 随机 以 消除 长 路 径 。 对 于 快速 排序 ， 我 们 可 以 先 将 数组 打 乱 ;而 
对 于 符号 表 的 API， 我 们 无 能 为 力 ， 因 为 符号 表 的 用 例 控制 着 各 种 操作 的 先后 顺序 。 但 最 坏 情 况 在 
实际 应 用 也 有 可 能 出 现 一 一 用 例 将 所 有 键 按 照 顺 序 或 者 逆序 搬入 符号 表 就 会 增加 这 种 情况 出 现 的 概 
率 ， 而 在 没有 明确 的 警告 来 避免 这 种 行为 时 有 些 用 例 肯定 会 尝试 这 么 做 。 这 就 是 我 们 寻找 更 好 的 算 
法 和 数据 结构 的 主要 原因 ， 这 些 算法 和 数据 结构 我 们 会 在 下 一 节 学 习 。 

本 书 中 简单 的 符号 表 实现 的 成 本 列 在 表 3.2.2 中 。 


表 3.2.2 简单 的 符号 表 实现 的 成 本 总 结 


最 坏 情况 下 的 运行 时 间 的 增长 数量 级 | 平均 情况 下 的 运行 时 间 的 增长 数量 级 | ; 
算法 (数据 结构 ) (N 次 插入 之 后 ) (CN 次 插入 随机 键 之 后 ) ee 
播 ” 次 查找 命中 插 ”入 
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问 我 见 过 二 叉 查找 树 ， 但 它 的 实现 没有 使 用 递归 。 这 两 种 方式 各 有 哪些 优 缺 点 ? 
答 ”一 般 来 说 ， 递 归 的 实现 更 容易 验证 其 正确 性 ， 而 非 递归 的 实现 效率 更 高 。 在 练习 3.2.13 中 你 需要 用 
另 一 种 方法 实现 get ()， 你 可 能 会 注意 到 性 能 上 的 改进 。 如 果树 不 是 平衡 的 ， 函 数 调用 的 栈 的 深度 
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人 
人 


可 能 会 成 为 递归 实现 的 一 个 问题 。 我 们 使 用 递归 的 一 个 主要 原因 是 使 读者 能 够 轻松 过 小 到 下 一 节 中 
的 平衡 二 叉 查找 树 ， 而 且 递归 版 本 显然 更 易于 实现 和 调试 。 

问 ”维护 Node 对 象 中 的 结 点 计数 器 似乎 需要 很 多 代码 ， 这 有 必要 吗 ? 为 什么 不 只 用 一 个 变量 来 保存 整 棵 
树 中 的 结 点 总 数 来 实现 用 例 中 的 size 0) 方法 ? 


芝 


rank() 和 selectQ 方法 需要 知道 每 个 结 点 所 代表 的 子 树 中 的 结 点 总 数 。 如 果 你 不 需要 实现 这 些 操 


作 ， 可 以 去 掉 这 个 变量 以 简化 代码 ( 请 见 练习 3.2.12 ) 。 要 保证 所 有 结 点 中 的 计数 器 的 正确 性 的 确 
很 容易 出 错 ， 但 这 个 值 在 调试 中 同样 有 用 。 你 也 可 以 用 递归 的 方法 实现 用 例 中 的 size() 函数 ， 但 这 
样 统计 所 有 结 点 的 运行 时 间 可 能 是 线性 的 。 这 十 分 危险 ， 因 为 如 果 不 知道 这 么 一 个 简单 的 操作 会 如 - 
此 耗 时 ， 用 例 的 性 能 可 能 会 变 得 很 差 。 


图 练习 


3.2.1 


3.2.2 


3.2.3 
3.2.4 


3.2.7 


3.2.8 


3.2.9 


将 EASYQUESTI0ON 作 为 键 按 顺 序 插入 一 棵 初始 为 空 的 二 又 查找 树 中 (方便 起 见 设 第 
i 个 键 对 应 的 值 为 i ) ， 画 出 生成 的 二 又 查找 树 。 构 造 这 棵 树 需 要 多 少 次 比较 ? : 
将 A X C Ss E RH 作为 键 按 顺 序 插入 将 会 构造 出 一 棵 最 坏 情 况 下 的 二 叉 查 找 树 结构 ， 最 下 方 的 结 
点 的 两 个 链接 全 部 为 空 ， 其 他 结 点 都 含有 一 个 空 链接 。 用 这 些 键 给 出 构造 最 坏 情况 下 的 树 的 其 他 
5 种 排列 。 

给 出 AXCSERH 的 5 种 能 够 构造 出 最 优 二 叉 查 找 树 的 排列 。 

假设 某 棵 二 又 查找 树 的 所 有 键 均 为 1 至 10 的 整数 ， 而 我 们 要 查找 5S。 那 么 以 下 哪个 不 可 能 是 键 的 
检查 序列 ? 

a. 10, 9, 8, 7, 6, 5 

bb 机 加: 为 世 3 

0 名 

DT 

e. 1, 2, 10, 4, 8, 5 

假设 已 知 某 棵 二 叉 查 找 树 中 的 每 个 结 点 的 查找 频率 ， 且 我 们 可 以 以 任意 顺序 用 它们 构造 一 棵 树 。 
我 们 是 应 该 按照 查找 频率 的 顺序 由 高 到 低 或 是 由 低 到 高 将 它们 插入 ， 还 是 用 其 他 某 种 顺序 ?证 明 
你 的 结论 。 

为 二 又 查 找 树 添加 一 个 方法 height(0) 来 计算 树 的 高 度 。 实 现 两 种 方案 : 一 种 使 用 递归 ( 用 时 为 
线性 级 别 ， 所 需 空间 和 树 高 成 正比 ) ， 一 种 模仿 size() 在 每 个 结 点 中 添加 一 个 变量 ( 所 需 空间 
为 线性 级 别 ， 查 询 耗 时 为 常数 ) 。 

为 二 义 查 找 树 添加 一 个 方法 avgCompares () 来 计算 一 棵 给 定 的 树 中 的 一 次 随机 命中 查找 平均 所 需 
的 比较 次 数 ( 即 树 的 内 部 路 径 长 度 除 以 树 的 大 小 再 加 1 ) 。 实 现 两 种 方案 : 一 种 使 用 递归 ( 用 时 
为 线性 级 别 ， 所 需 空 间 和 树 高 成 正比 ) ， 一 种 模仿 size() 在 每 个 结 点 中 添加 一 个 变量 ( 所 需 空 
间 为 线性 级 别 ， 查 询 耗 时 为 常数 ) 。 

编写 一 个 静态 方法 optCompares() ， 接 受 一 个 整 型 参数 N 并 计算 一 棵 最 优 ( 完美 平衡 的 ) 二 又 查 
找 树 中 的 一 次 随机 查找 命中 平均 所 需 的 比较 次 数 ， 如 果树 中 的 链接 数量 为 2 的 寡 ， 那 么 所 有 的 空 
链接 都 应 该 在 同一 层 ， 否 则 则 分 布 在 最 底部 的 两 层 中 。 

对 于 N=2、3、4、5 和 6， 画 出 用 X 个 键 可 能 构造 出 的 所 有 不 同形 状 的 二 又 查找 树 。 


3.2.10 编写 一 个 测试 用 例 TestBSTjava 来 测试 正文 中 min()、max()、floor() 、ceiling0O)、 


3.2.11 


3.2.12 
3.2.13 


3.2.14 
3.2.15 


3.2.16 


3:2.17 


3.2.18 


3.2.19 


3.2.20 


3.2.21 


3.2.22 
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select()、rank()、delete()、deleteMin()、deleteMax() 和 keys0Q 方法 的 实现 。 可 以 参 
考 3.1.3.1 节 的 标准 索引 用 例 ， 使 它 接受 其 他 合适 的 命令 行 参数 。 
高 度 为 Y 且 含有 N 个 结 点 的 二 又 树 能 有 多 少 种 形状 ? 使 用 个 不 同 的 键 能 有 多 少 种 不 同 的 方式 
构造 一 棵 高 度 为 N 的 二 又 查 找 树 ” ( 参考 练习 3.2.2 ) 
实现 一 种 二 又 查找 树 ， 舍 弃 rank() 和 select() 方法 并 且 不 在 Node 对 象 中 使 用 计数 器 。 
为 二 又 查找 树 实 现 非 递归 的 put QO 和 get() 方法 。 
部 分 解答 ， 以 下 是 get() 方法 的 实现 : 
public Value get(Key key) 
| Node x = root; 
while (x != nul1) 
, int cmp = key.compareTo(x.key); 
if (cmp == 0) return x.val; 
else if (cmp < 0) x = x.left; 
else if (cmp > 0) x Xeright; 
RR null; 
} 
put() 的 实现 更 复杂 一 些 ， 因 为 它 需 要 保存 一 个 指向 底层 结 点 的 链接 ， 以 便 使 之 成 为 新 结 点 的 
父 结 点 。 你 还 需要 额外 遍历 一 遍 查 找 路 径 来 更 新 所 有 的 结 点 计数 器 以 保证 结 点 插入 的 正确 性 。 
因为 在 性 能 优先 的 实现 中 查找 的 次 数 比 插入 多 得 多 ， 有 必要 使 用 这 段 get Q) 代码 ， 而 相应 的 
put() 实现 则 无 关 紧要 。 
实现 非 递归 的 minG 、max(C) 、filoorQO)、ceiling()、rank() 和 select() 方法 。 
对 于 右 下 方 的 二 又 查 找 树 ， 给 出 计算 下 列 方法 的 过 程 中 结 点 的 访问 序列 。 
» F160FC"QY 
. Select(5) 
. Ceiling("Q") 
. rank("J") 
:S126 D", “TY 
“KeysCD",. "T") 
设 一 棵 树 的 外 部 路 径 长 度 为 从 根 结 点 到 空 链接 的 所 有 路 径 上 的 结 点 总 数 。 证 明 对 于 大 小 为 V 的 
任意 二 义 树 ， 其 外 部 路 径 长 度 和 内 部 路 径 长 度 之 差 为 2N ( 可 以 参考 命题 C ) 
从 练习 3.2.1 构造 的 二 叉 查找 树 中 将 所 有 键 按照 插入 顺序 逐个 删除 并 画 出 每 次 删除 所 得 到 的 树 。 
从 练习 3.2.1 构造 的 二 又 查 找 树 中 将 所 有 键 按照 字母 顺序 逐个 删除 并 画 出 每 次 删除 所 得 到 的 树 。 
从 练习 3.2.1 构造 的 二 叉 查找 树 中 逐次 删除 树 的 根 结 点 并 画 出 每 次 删除 所 得 到 的 树 。 
请 证 明 : 对 于 含有 N 个 结 点 的 二 叉 查找 树 ， 接 受 两 个 参数 的 size() 方法 所 需 的 运行 时 间 最 多 为 
树 高 的 倍数 加 上 查找 范围 内 的 键 的 数量 。 
为 二 又 查找 树 添 加 一 个 randomKey () 方法 来 在 和 树 高 成 正比 的 时 间 内 从 符号 表 中 随机 返回 一 
个 键 。 
请 证 明 : 若 一 棵 二 又 查找 树 中 的 一 个 结 点 有 两 个 子 结 点 ， 那 么 它 的 后 继 结 点 不 会 有 左 子 结 点 ， 
前 继 结 点 不 会 有 右 子 结 点 。 
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Bo2 


3.2.23 
3.2.24 


delete() 方法 符合 交换 律 吗 ?( 先 删除 x 后 删除 y 和 先 删除 y 后 删除 x 能 够 得 到 相同 的 结果 吗 ? ) 
请 证 明 : 使 用 基于 比较 的 算法 构造 一 棵 二 又 查找 树 所 需 的 最 小 比较 次 数 为 lg(N!)~NlgN。 


图 提高 古 


3.2.25 


3.2.26 
3.2.27 


3.2.28 


3.2.29 


3.2.30 


3.2.31 


3.2.32 


3.2.33 


3.2.34 


完美 平衡 。 编 写 一 段 程序 ， 用 一 组 键 构造 一 棵 和 二 分 查找 等 价 的 二 又 查找 树 。 也 就 是 说 ， 在 这 
棵 树 中 查找 任意 键 所 产生 的 比较 序列 和 在 这 组 键 中 使 用 二 分 查找 所 产生 的 比较 序列 完全 相同 。 
准确 的 概率 。 计 算 用 N 个 随机 的 互 不 相同 的 键 构造 出 练习 3.2.9 中 的 每 一 棵 树 的 概率 。 
内 存 使 用 基于 1.4 节 的 假设 ， 对 于 X 对 键 值 比较 二 又 查找 树 和 BinarySearchsT 以 及 
SequentialSearchST 的 内 存 使 用 情况 。 不 需要 记录 键 值 本 身 占 用 的 内 存 ， 只 统计 它们 的 引用 。 
用 图 精确 描述 一 棵 以 String 为 键 、Integer 为 值 的 二 叉 查 找 树 ( 比如 FrequencyCounter 构造 
的 那 种 ) 的 内 存 使 用 情况 ， 然 后 估计 FrequencyCounter 在 使 用 二 叉 查 找 树 处 理 《 双 城 记 》 时 
树 的 内 存 使 用 情况 〈 精确 到 字 节 ) 。 
缓存 。 修 改 二 又 查找 树 的 实现 ， 将 最 近 访 问 的 结 点 Node 保存 在 一 个 变量 中 ， 这 样 get 0) 或 
put() 再 次 访问 同一 个 键 时 就 只 需要 常数 时 间 了 (参考 练习 3.1.25 ) 。 
二 又 树 检查 。 编 写 一 个 递归 的 方法 isBinaryTree() ， 接 受 一 个 结 点 Node 为 参数 。 如 果 以 该 结 
点 为 根 的 子 树 中 的 结 点 总 数 和 计数 器 的 值 Y 相符 则 返回 true， 否则 返回 false。 注 意 : 这 项 检 
查 也 能 保证 数据 结构 中 不 存在 环 ， 因 此 这 的 确 是 一 棵 二 又 树 ! 
有 序 性 检查 。 编 写 一 个 递归 的 方法 isOrdered() ,接受 一 个 结 点 Node 和 min max 两 个 键 作为 参数 。 
如 果 以 该 结 点 为 根 的 子 树 中 的 所 有 结 点 都 在 min 和 max 之 间 ，min 和 max 的 确 分 别 是 树 中 的 最 
小 和 最 大 的 结 点 且 二 叉 查 找 树 的 有 序 性 对 树 中 的 所 有 键 都 成 立 ， 返 回 true， 否 则 返回 false。 
等 值 键 检 查 。 编 写 一 个 方法 hasNoDup1icates() ， 接 受 一 个 结 点 Node 为 参数 。 如 果 以 该 结 点 
为 根 的 二 又 查找 树 中 不 含有 等 值 的 键 则 返回 true， 和 否则 返回 false。 假 设 树 已 经 通过 了 前 几 道 
练习 的 检查 。 
验证 。 编 写 一 个 方法 isBST() ， 接 受 一 个 结 点 Node 为 参数 。 若 该 结 点 是 一 个 二 又 查找 树 的 根 结 
点 则 返回 true， 和 否则 返回 false。 提 示 : 这 个 任务 比 看 起 来 要 困难 ， 它 和 你 调用 前 三 题 中 各 个 
方法 的 顺序 有 关 。 
解答 : 
private boolean isBST() 

if (!isBinaryTree(root)) return false; 

if (!isOrdered(root, min(), max())) return false; 

if (!hasNoDuplicates(root)) return false; 


return true; 


} 

选择 /排名 检查 。 编 写 一 个 方法 ， 对 于 0 到 sizeO 〇 -1 之 间 的 所 有 i， 检查 i 和 rank(select(i)) 
是 否 相 等 ， 并 检查 二 又 查找 树 中 的 的 任意 键 key 和 select(Crank(key)) 是 否 相等 。 

线性 符号 表 。 你 的 目标 是 实现 一 个 扩展 的 符号 表 ThreadST， 支 持 以 下 两 个 运行 时 间 为 常数 的 
操作 : 


Key next(Key key) ，key 的 下 一 个 键 ( 若 key 为 最 大 键 则 返回 空 ) 
Key prev(Key key)，key 的 上 一 个 键 ( 若 key 为 最 小 键 则 返回 空 ) 


3.2.35 


3.2.36 


3.2.37 


3.2.38 
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要 做 到 这 一 点 需要 在 结 点 中 增加 pred 和 succ 两 个 变量 来 保存 结 点 的 前 继 和 后 继 结 点 ， 并 相应 
修改 put()、deleteMin()、deleteMax() 和 delete() 方法 来 维护 这 两 个 变量 。 

改进 的 分 析 。 为 了 更 好 地 解释 正文 表格 中 的 试验 结果 请 改进 它 的 数学 模型 。 证明 随 着 N 的 增 大 ， 
在 一 棵 随机 构造 的 二 叉 查 找 树 中 ， 一 次 命中 查找 所 需 的 平均 比较 次 数 会 趋 近 于 limit(2InN)+2 y 
3=1.391gNM-1.85， 其 中 y =0.57721…， 即 欧 拉 常 数 。 提 示 : 参考 2.3 节 中 对 快速 排序 的 分 析 ，1/x 
的 积分 趋 近 于 InM+y 。 

和 迭代 器 。 能 和 否 实现 一 个 非 递归 版 本 的 keys 0) 方法 ， 其 使 用 的 额外 空间 和 树 的 高 度 成 正比 ( 和 查 
找 范围 内 的 键 的 多 少 无 关 ) ? 

按 层 遍历 。 编 写 一 个 方法 printLeve1() ， 接 受 一 个 结 点 Node 作为 参数 ， 按 照 层级 顺序 打印 以 
该 结 点 为 根 的 子 树 ( 即 按 每 个 结 点 到 根 结 点 的 距离 的 顺序 ， 同 一 层 的 结 点 应 该 按 从 左 至 右 的 顺 
序 ) 。 提 示 : 使 用 队列 Queue。 

绘图 。 为 二 又 查找 树 添加 一 个 方法 draw() ， 按 照 正 文中 的 样式 将 树 绘制 出 来 。 提 示 : 在 结 点 中 
用 变量 保存 坐标 并 用 递归 的 方法 设置 这 些 变量 。 


图 实验 是 


3.2.39 


3.2.40 


3.2.41 


3.2.42 


3.2.43 


3.2.44 


3.2.45 


平均 情况 。 用 经 验 数 据 评估 在 一 棵 由 个 随机 结 点 构造 的 二 又 查找 树 中 ， 一 次 命中 的 查找 和 未 命 
中 的 查找 平均 所 需 的 比较 次 数 的 平均 差 和 标准 差 ， 其 中 N=10*、10” 和 10"， 重 复 实 验 100 遍 。 将 你 
的 实验 结果 和 练习 3.2.35 给 出 的 计算 平均 比较 次 数 的 公式 进行 对 比 。 

树 的 高 度 。 用 经 验 数据 评估 一 棵 由 YX 个 随机 结 点 构造 的 二 又 查找 树 的 平均 高 度 ， 其 中 N=10'、 
10 和 10'， 重 复 实验 100 遍 。 将 你 的 试验 结果 和 正文 中 给 出 的 估计 值 2.991gN 进行 对 比 。 

数组 表示 。 开 发 一 个 二 叉 查 找 树 的 实现 ， 用 三 个 数组 表示 一 棵 树 ( 预先 分 配 为 构造 函数 中 所 指 
定 的 最 大 长 度 ) : 一 个 数组 用 来 保存 键 ， 一 个 数组 用 来 保存 左 链 接 的 索引 ， 一 个 数组 用 来 保存 
右 链接 的 索引 。 比 较 你 的 程序 和 标准 实现 的 性 能 。 

Hibbard 删除 方法 的 性 能 问题 。 编 写 一 个 程序 ， 从 命令 行 接受 一 个 参数 W 并 构造 一 棵 
由 WN 个 随机 键 生 成 的 二 叉 查 找 树 ， 然 后 进入 一 个 循环 。 在 循环 中 它 先 删 除 一 个 随机 键 
(delete(select(StdRandom.uniform(N))) ) ， 然 后 再 插入 一 个 随机 键 ， 如 此 循环 入 次 。 
循环 结束 后 ， 计 算 并 打印 树 的 内 部 平均 路 径 长 度 ( 内 部 路 径 长 度 除 以 N 再 加 1) 。 对 于 N=10”、 
10 和 10, 运行 你 的 程序 来 验证 一 个 有 些 违 反 直 觉 的 假设 : 这 个 过 程 会 增加 树 的 平均 路 径 长 度 ， 
增加 的 长 度 和 N 的 平方 根 成 正比 。 使 用 能 够 随机 选择 前 继 或 后 继 结 点 的 delete() 方法 重复 这 

个 实验 。 

put()/get() 方法 的 比例 。 用 经 验 数 据 评 估 当 使 用 FrequencyCounter 来 统计 100 万 个 随机 整 
数 中 每 个 数 的 出 现 频率 时 ， 二 叉 查 找 树 中 put () 方法 和 getQ 〇 方法 所 消耗 的 时 间 的 比例 。 
绘制 成 本 图 。 改 造 二 又 查找 树 的 实现 来 绘制 本 节 所 示 的 那 种 能 够 显示 计算 中 每 次 put 0) 操作 成 
本 的 图 。 

实际 耗 时 。 改 造 FrequencyCounter， 使 用 Stopwatch 和 StdDraw 绘图 ， 其 中 x 轴 表示 get() 
和 put(0) 调用 的 总 数 ,，y 轴 为 总 运行 时 间 ， 每 次 调用 之 后 即 在 当前 运行 时 间 处 绘制 一 个 点 。 使 用 
SequentialSearchST 和 你 的 程序 处 理 《 双 城 记 》， 再 用 BinarySearchST 处 理 一 遍 ， 最 后 用 二 
叉 查 找 树 处 理 一 这， 然后 讨论 运行 的 结果 。 注 意 : 曲线 中 突然 的 跳跃 可 能 是 缓存 导致 的 ， 这 已 
经 超出 了 这 个 问题 的 讨论 范围 (请 见 练习 3.1.39 ) 。 
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3.2.46 二 又 查找 树 的 临界 点 。 使 用 随机 double 值 作为 键 ， 分 别 找 出 使 得 二 叉 查找 树 的 符号 表 比 二 分 查 
找 要 快 10、100 倍 和 1000 倍 的 入 值 。 分析 并 预测 w 的 大 小 并 通过 实验 验证 它 。 

3.2.47 平均 查找 耗 时 。 用 实验 研究 和 计算 在 一 棵 由 六 个 随机 结 点 构造 的 二 叉 查找 树 中 到 达 任意 结 点 的 
平均 路 径 长 度 ( 内 部 路 径 长 度 除 以 NN 再 加 1 ) 的 平均 差 和 标准 差 ， 对 于 100 到 10 000 之 间 的 每 
个 重复 实验 1000 遍 。 将 结果 绘制 成 和 图 3.2.14 相似 的 一 张 Tufte 图 ， 并 画 上 函数 1.39lgN-1.85 
的 曲线 (请 见 练习 3.2.35 和 练习 3.2.39 ) 。 


20 








HT 
1.39 lgN -1.85 


平均 路 径 长 度 


100 节点 数量 N 10 000 


423 图 3.2.14 一 棵 随机 构造 的 二 又 查找 树 中 由 根 到 达 任 意 结 点 的 平均 路 径 长 度 ( 另 见 彩 插 ) 
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3.3 ”平衡 查找 树 


我 们 在 前 面 几 节 中 学 习 过 的 算法 已 经 能 够 很 好 地 用 于 许多 应 用 程序 中 ， 但 它们 在 最 坏 情况 下 的 
性 能 还 是 很 糟糕 。 在 本 节 中 我 们 会 介绍 一 种 二 分 查找 树 并 能 保证 无 论 如 何 构造 它 ， 它 的 运行 时 间 都 
是 对 数 级 别 的 。 理 想 情况 下 我 们 希望 能 够 保持 二 分 查找 树 的 平衡 性 。 在 一 棵 含 及 个 结 点 的 树 中 ， 
我 们 希望 树 高 为 ~lgN, 这 样 我 们 就 能 保证 所 有 查找 都 能 在 ~lgN 次 比较 内 结束 , 就 和 二 分 查找 一 样 ( 请 
见 命 题 B ) 。 不 幸 的 是 ， 在 动态 插入 中 保证 树 的 完美 平衡 的 代价 太 高 了 。 在 本 节 中 ,我们 稍稍 放松 
完美 平衡 的 要 求 并 将 学 习 一 种 能 够 保证 符号 表 API 中 所 有 操作 ( 范围 查找 除外 ) 均 能 够 在 对 数 时 间 
内 完成 的 数据 结构 。 


3.3.1 2-3 查找 树 

为 了 保证 查找 树 的 平衡 性 ， 我 们 需要 一 些 灵 活性 ， 因 此 在 这 里 我 们 允许 树 中 的 一 个 结 点 保存 多 
个 键 。 确 切 地 说 ， 我 们 将 一 棵 标准 的 二 又 查找 树 中 的 结 点 称 为 2- 结 点 ( 含有 一 个 键 和 两 条 链接 ) ， 
而 现在 我 们 引入 3- 结 点 ， 它 含有 两 个 键 和 三 条 链接 。2- 结 点 和 3- 结 点 中 的 每 条 链接 都 对 应 着 其 中 
保存 的 键 所 分 割 产 生 的 一 个 区 间 。 


定义 。 一 棵 2-3 查找 树 或 为 一 棵 空 树 ， 或 由 以 下 结 点 组 成 ; 
口 2- 结 点 ， 含 有 一 个 键 ( 及 其 对 应 的 值 ) 和 两 条 链接 ， 左 链接 指向 的 2-3 树 中 的 键 都 小 于 
,该 结 点 ， 右 链接 指向 的 2-3 树 中 的 键 都 大 于 该 结 点 。 
口 3- 结 点 ， 含 有 两 个 键 (及 其 对 应 的 值 ) 和 三 条 链接 ， 左 链接 指向 的 2-3 树 中 的 键 都 小 
于 该 结 点 ， 中 链接 指向 的 2-3 树 中 的 键 都 位 于 该 结 点 的 两 个 键 之 间 ， 右 链接 指向 的 2-3 
树 中 的 键 都 大 于 该 结 点 。 
和 以 前 一 样 ， 我 们 将 指向 一 棵 空 树 的 链接 称 为 空 链 接 。2-3 查找 树 如 图 3.3.1 所 示 。 





图 3.3.1 2-3 查找 树 示 意图 


一 棵 完美 平衡 的 2-3 查找 树 中 的 所 有 空 链接 到 根 结 点 的 距离 都 应 该 是 相同 的 。 简 洁 起 见 ， 这 里 
我 们 用 2-3 树 指 代 一 棵 完美 平衡 的 2-3 查找 树 ( 在 其 他 情况 下 这 个 词 应 该 表示 一 种 更 一 般 的 结构 ) 。 
稍 后 我 们 将 会 学 习 定义 并 高 效 地 实现 2- 结 点 、3- 结 点 和 2-3 树 的 基本 操作 。 现 在 先 假设 我 们 已 经 能 
够 自如 地 操作 它们 并 来 看 看 应 该 如 何 将 它们 用 作 查 找 树 。 
3.3.1.1 ”查找 

将 二 叉 查 找 树 的 查找 算法 一 般 化 我 们 就 能 够 直接 得 到 2-3 树 的 查找 算法 。 要 判断 一 个 键 是 否 在 
树 中 ， 我 们 先 将 它 和 根 结 点 中 的 键 比较 。 如 果 它 和 其 中 任意 一 个 相等 ， 查 找 命中 ; 否则 我 们 就 根据 
比较 的 结果 找到 指向 相应 区 间 的 链接 ， 并 在 其 指向 的 子 树 中 递归 地 继续 查找 。 如 果 这 是 个 空 链 接 ， 
查找 未 命中 。 具 体 查 找 过 程 如 图 3.3.2 所 示 。 
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对 H 的 命中 查找 对 B 的 未 命中 查找 
H 小 于 M， 在 左 子 树 中 继续 查找 B 小 于 M， 在 左 子 树 中 继续 查找 
~ Ss 





时 B 小 于 E， 在 左 
H 在 E 和 J 之 间 ， 在 中 
子 树 中 继续 查找 子 树 中 继续 查找 
(E I) 下》 
CH) (L) (A C) (H) (LD) 


9 
t 


找到 H， 返 回 相应 的 值 (命中) B 在 A 和 C 之 间 ， 在 中 子 树 中 继续 查找 
链接 为 空 ，B 不 在 树 中 (未 命中 ) 


图 3.3.2 ”2-3 树 中 的 查找 命中 ( 左 ) 和 未 命中 ( 右 ) 


3.3.1.2 ”向 2- 结 点 中 插入 新 键 插入 K 人 
要 在 2.3 树 中 插入 一 个 新 结 点 ， 我 们 可 以 和 二 又 查找 树 (ET 
一 样 先进 行 一 次 未 命中 的 查找 ,然后 把 新 结 点 挂 在 树 的 底部 。 
但 这 样 的 话 树 无 法 保持 完美 平衡 性 。 我 们 使 用 2-3 树 的 主要 
原因 就 在 于 它 能 够 在 插入 后 继续 保持 平衡 。 如 果 未 命中 的 查 尘 K 的 查找 在 此 处 结束 
找 结束 于 一 个 2- 结 点 ， 事 情 就 好 办 了 : 我 们 只 要 把 这 个 2- 
结 点 替换 为 一 个 3- 结 点 ， 将 要 插入 的 键 保存 在 其 中 即 可 ( 如 
图 3.3.3 所 示 ) 。 如 果 未 命中 的 查找 结束 于 一 个 3- 结 点 ， 事 XD 
情 就 要 麻烦 一 些 。 交 S2 -十 呈 要 并 二 二 未 
3.3.1.3 ”向 一 棵 只 含有 一 个 3- 结 点 的 树 中 插入 新 键 新 的 含有 K 的 3- 结 点 


在 考虑 一 般 情 况 之 前 ， 先 假设 我 们 需要 向 一 棵 只 含有 一 图 3.3.3 向 2- 结 点 中 插入 新 的 键 
个 3- 结 点 的 树 中 插入 一 个 新 键 。 这 棵 树 中 有 两 个 键 ， 所 以 
在 它 唯一 的 结 点 中 已 经 没有 可 插入 新 键 的 空间 了 。 为 了 将 新 键 插入 ， 我 们 先 临时 将 新 键 存 人 该 结 
点 中 , 使 之 成 为 一 个 4- 结 点 。 它 很 自然 地 扩展 了 以 前 的 结 点 并 含有 3 个 键 和 4 条 链接 。 创 建 一 个 4- 
结 点 很 方便 , 因为 很 容易 将 它 转 换 为 一 棵 由 3 个 2- 结 点 组 成 的 2-3 树 ,其 中 一 个 结 点 ( 根 ) 含 有 中 键 ， 
一 个 结 点 含有 3 个 键 中 的 最 小 者 ( 和 根 结 点 的 左 链接 相连 ) ， 一 个 结 点 含有 3 个 键 中 的 最 大 者 ( 和 
根 结 点 的 右 链接 相连 )。 这 棵 树 既 是 一 棵 含有 3 个 结 点 的 二 又 查找 树 , 同时 也 是 一 棵 完美 平衡 的 2-3 
树 ， 因 为 其 中 所 有 的 空 链 接 到 根 结 点 的 距离 都 相等 。 插 入 前 树 的 高 度 为 0， 插 入 后 树 的 高 度 为 1。 
这 个 例子 很 简单 但 却 值得 学 习 ， 它 说 明了 2-3 树 是 如 何 生 长 的 ， 如 图 3.3.4 所 示 。 
3.3.1.4 ”向 一 个 父 结 点 为 2- 结 点 的 3- 结 点 中 插入 新 键 

作为 第 二 轮 热身 ， 假 设 未 命中 的 查找 结束 于 一 个 3- 结 点 ， 而 它 的 父 结 点 是 一 个 2- 结 点 。 在 这 
种 情况 下 我 们 需要 在 维持 树 的 完美 平衡 的 前 提 下 为 新 键 腾 出 空间 。 我 们 先 像 刚 才 一 样 构 造 一 个 临时 
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的 4- 结 点 并 将 其 分 解 ， 但 此 时 我 们 不 会 为 中 键 创建 一 个 新 结 点 ， 而 是 将 其 移动 至 原来 的 父 结 点 中 。 
你 可 以 将 这 次 转换 看 成 将 指向 原 3- 结 点 的 一 条 链接 替换 为 新 父 结 点 中 的 原 中 键 左右 两 边 的 两 条 链 
接 , 并 分 别 指向 两 个 新 的 2- 结 点 。 根 据 我 们 的 假设 , 父 结 点 中 是 有 空间 的 : 父 结 点 是 一 个 2- 结 点 (一 
个 键 两 条 链接 ) ,插入 之 后 变 为 了 一 个 3- 结 点 ( 两 个 键 3 条 链接 ) 。 另 外 , 这 次 转换 也 并 不 影响 〈 完 
美 平衡 的 ) 2-3 树 的 主要 性 质 。 树 仍然 是 有 序 的 ， 因 为 中 键 被 移动 到 父 结 点 中 去 了 ; 树 仍然 是 完美 
平衡 的 , 插入 后 所 有 的 空 链接 到 根 结 点 的 距离 仍然 相同 。 请 确认 你 完全 理解 了 这 次 转换 一 一 它 是 2-3 
树 的 动态 变化 的 核心 ， 其 过 程 如 图 3.3.5 所 示 。 


插入 Z 
© 对 Z 的 查找 结束 
CR) 人 于 这 个 3- 结 点 
CS X) 
将 3- 结 点 替换 为 
包含 Z 的 4-- 结 点 
i 
久 站 运 
插入 S 
(A E) -一 没有 S 的 空位 了 将 2- 结 点 赫 换 为 含 
有 中 键 的 新 3- 结 点 
(CR E 5) 一 创建 一 个 4- 结 点 ER 
B 将 4- 结 点 分 解 (S) (2) 
一 为 这 棵 2-3 树 N_Z 
全 将 4- 结 点 分 解 为 两 个 2- 结 点 
将 中 键 移动 至 父 结 点 中 
图 3.3.4 向 一 棵 只 含有 一 个 3- 结 点 的 图 3.3.5 向 一 个 父 结 点 为 2- 结 点 的 
树 中 插入 新 键 3- 结 点 中 插入 新 键 
3.3.1.5 向 一 个 父 结 点 为 3- 结 点 的 3- 结 点 中 插入 新 键 
现在 假设 未 命中 的 查找 结束 于 一 个 父 结 点 为 3- 结 点 的 结 点 。 我 们 再 次 和 刚才 一 样 构造 一 个 


临时 的 4- 结 点 并 分 解 它 ， 然 后 将 它 的 中 键 插入 它 的 父 结 点 中 。 但 父 结 点 也 是 一 个 3- 结 点 ， 因 此 
我 们 再 用 这 个 中 键 构造 一 个 新 的 临时 4- 结 点 ， 然 后 在 这 个 结 点 上 进行 相同 的 变换 ， 即 分 解 这 个 
父 结 点 并 将 它 的 中 键 插入 到 它 的 父 结 点 中 去 。 推 广 到 一 般 情 况 ， 我 们 就 这 样 一 直 向 上 不 断 分 解 临 
时 的 4- 结 点 并 将 中 键 插入 更 高 层 的 父 结 点 ， 直 至 遇 到 一 个 2- 结 点 并 将 它 蔡 换 为 一 个 不 需要 继续 
分 解 的 3- 结 点 ， 或 者 是 到 达 3- 结 点 的 根 。 该 过 程 如 图 3.3.6 所 示 。 
3.3.1.6 ”分 解 根 结 点 

如 果 从 插入 结 点 到 根 结 点 的 路 径 上 全 都 是 3- 结 点 , 我 们 的 根 结 点 最 终 变 成 一 个 临时 的 4- 结 点 。 
此 时 我 们 可 以 按照 向 一 棵 只 有 一 个 3- 结 点 的 树 中 插入 新 键 的 方法 处 理 这 个 问题 。 我 们 将 临时 的 4- 
结 点 分 解 为 3 个 2- 结 点 ， 使 得 树 高 加 1， 如 图 3.3.7 所 示 。 请 注意 ， 这 次 最 后 的 变换 仍然 保持 了 树 
的 完美 平衡 性 ， 因 为 它 变换 的 是 根 结 点 。 
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Ye (ACD) 
CAY ©) 将 中 键 C 加 入 3- 结 点 使 
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© 将 中 键 移动 鱼 父 结 点 中 
+ 将 4- 结 点 分 解 
为 三 个 2- 结 点 ~ 
2 树 高 加 1 
将 4- 结 点 分 解 为 两 个 2- 结 点 ， 
将 中 键 移动 至 父 结 点 中 BD 吕 


图 3.3.6 ”向 一 个 父 结 点 为 3- 结 点 的 3- 结 点 中 插入 新 键 图 3.3.7 分解 根 结 点 


3.3.1.7 ”局 部 变换 

将 一 个 4- 结 点 分 解 为 一 棵 2-3 树 可 能 有 6 种 情况 ， 都 总 结 在 了 图 3.3.8 中 。 这 个 4- 结 点 可 能 是 
根 结 点 ， 可 能 是 一 个 2- 结 点 的 左 子 结 点 或 者 右 子 结 点 ， 也 可 能 是 一 个 3- 结 点 的 左 子 结 点 、 中 子 结 
点 或 者 右 子 结 点 。2-3 树 插入 算法 的 根本 在 于 这 些 变换 都 是 局 部 的 : 除了 相关 的 结 点 和 链接 之 外 不 
必修 改 或 者 检查 树 的 其 他 部 分 。 每 次 变换 中 ， 变 更 的 链接 数量 不 会 超过 一 个 很 小 的 常数 。 需 要 特别 
指出 的 是 ， 不 光 是 在 树 的 底部 ， 树 中 的 任何 地 方 只 要 符合 相应 的 模式 ， 变 换 都 可 以 进行 。 每 个 变换 
都 会 将 4- 结 点 中 的 一 个 键 送 入 它 的 父 结 点 中 ， 并 重 构 相应 的 链接 而 不 必 涉 及 树 的 其 他 部 分 。 
3.3.1.8 全 局 性 质 

这 些 局 部 变换 不 会 影响 树 的 全 局 有 序 性 和 平衡 性 : 任意 空 链接 到 根 结 点 的 路 径 长 度 都 是 相等 
的 。 作 为 参考 ， 图 3.3.9 所 示 的 是 当 一 个 4- 结 点 是 一 个 3- 结 点 的 中 子 结 点 时 的 完整 变换 情况 。 如 
果 在 变换 之 前 根 结 点 到 所 有 空 链接 的 路 径 长 度 为 h， 那 么 变换 之 后 该 长 度 仍然 为 h。 所 有 的 变换 都 
具有 这 个 性 质 ， 即 使 是 将 一 个 4- 结 点 分 解 为 两 个 2- 结 点 并 将 其 父 结 点 由 2- 结 点 变 为 3- 结 点 ,或 
是 由 3- 结 点 变 为 一 个 临时 的 4- 结 点 时 也 是 如 此 。 当 根 结 点 被 分 解 为 3 个 2- 结 点 时 ， 所 有 空 链 接 
到 根 结 点 的 路 径 长 度 才 会 加 1。 如 果 你 还 没有 完全 理解 ， 请 完成 练习 3.3.7。 它 要 求 你 为 其 他 的 5 
种 情况 画 出 图 3.3.8 的 扩展 图 来 证 明 这 一 点 。 理 解 所 有 局 部 变换 都 不 会 影响 整 棵 树 的 有 序 性 和 平衡 
性 是 理解 这 个 算法 的 关键 。 
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图 3.3.8 在 一 棵 2-3 树 中 分 解 一 个 4- 结 点 的 情况 汇总 
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图 3.3.9 4- 结 点 的 分 解 是 一 次 局 部 变换 ， 不 会 影响 树 的 有 序 性 和 平衡 性 


和 标准 的 二 又 查找 树 由 上 向 下 生长 不 同 ，2-3 树 的 生长 是 由 下 向 上 的 。 如 果 你 花 点 时 间 和 仔细 研 
究 一 下 图 3.3.10， 就 能 很 好 地 理解 2-3 树 的 构造 方式 。 它 给 出 了 我 们 的 标准 索引 测试 用 例 中 产生 的 
一 系列 2-3 树 ， 以 及 一 系列 由 同一 组 键 按照 升序 依次 插入 到 树 中 时 所 产生 的 所 有 2-3 树 。 还 记得 在 
二 又 查找 树 中 ， 按 照 升序 插入 10 个 键 会 得 到 高 度 为 9 的 一 棵 最 差 查找 树 吗 ? 如 果 使 用 2-3 树 ， 树 
的 高 度 是 2。 

以 上 的 文字 已 经 足够 为 我 们 定义 一 个 使 用 2-3 树 作为 数据 结构 的 符号 表 的 实现 了 。2-3 树 的 分 
析 和 二 叉 查 找 树 的 分 析 大 不 相同 ， 因 为 我 们 主要 感 兴 趣 的 是 最 坏 情 况 下 的 性 能 ， 而 非 一 般 情况 ( 这 
种 情况 下 我 们 会 用 随机 键 模型 分 析 预 期 的 性 能 ) 。 在 符号 表 的 实现 中 ， 一 般 我 们 无 法 控制 用 例会 按 
照 什么 顺序 向 表 中 插入 键 ， 因 此 对 最 坏 情 况 的 分 析 是 唯一 能 够 提供 性 能 保证 的 办 法 。 


> 
MD 
oo 


命题 F。 在 一 棵 大 小 为 W 的 2-3 树 中 ， 查 找 和 插入 操作 访问 的 结 点 必然 不 超过 lgN 个 。 


证 明 。 一 棵 含有 和 个 结 点 的 2-3 树 的 高 度 在 [log;Vj=|dgN)/dg3)| (如 果树 中 全 是 3- 结 点 ) 和 
LlgN]( 如 果树 中 全 是 2- 结 点 ) 之 间 (请 见 练习 3.3.4) 。 
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图 3.3.10 ”2-3 树 的 构造 轨迹 


因此 我 们 可 以 确定 2-3 树 在 最 坏 情况 下 仍 有 较 好 的 性 能 。 每 个 操作 中 处 理 每 个 结 点 的 时 间 都 不 会 
超过 一 个 很 小 的 常数 ， 且 这 两 个 操作 都 只 会 访问 一 条 路 径 上 的 结 点 ， 所 以 任何 查找 或 者 插入 的 成 本 都 
肯定 不 会 超过 对 数 级 别 。 通 过 对 比 图 3.3.11 中 的 2-3 树 和 表 3.2.1 中 由 相同 的 键 构造 的 二 又 查找 树 你 也 
可 以 看 到 ， 完 美 平衡 的 2-3 树 要 平展 得 多 。 例 如 ， 含 有 10 亿 个 结 点 的 一 棵 2-3 树 的 高 度 仅 在 19 到 30 
之 间 。 我 们 最 多 只 需要 访问 30 个 结 点 就 能 够 在 10 亿 个 键 中 进行 任意 查找 和 插 人 操作 ,这 是 相当 惊人 的 。 


图 3.3.11 由 随机 键 构造 的 一 棵 典型 的 2-3 树 
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但 是 ， 我 们 和 真正 的 实现 还 有 一 段 距 离 。 尽 管 我 们 可 以 用 不 同 的 数据 类 型 表示 2- 结 点 和 3- 结 
点 并 写 出 变换 所 需 的 代码 ， 但 用 这 种 直 白 的 表示 方法 实现 大 多 数 的 操作 并 不 方便 ， 因 为 需要 处 理 的 
情况 实在 太 多 。 我 们 需要 维护 两 种 不 同类 型 的 结 点 ， 将 被 查找 的 键 和 结 点 中 的 每 个 键 进行 比较 ， 将 
链接 和 其 他 信息 从 一 种 结 点 复制 到 另 一 种 结 点 ， 将 结 点 从 一 种 数据 类 型 转换 到 另 一 种 数据 类 型 ， 等 
等 。 实 现 这 些 不 仅 需 要 大 量 的 代码 ， 而 且 它 们 所 产生 的 额外 开销 可 能 会 使 算法 比 标准 的 二 又 查找 树 
更 慢 。 平 衡 一 棵 树 的 初衷 是 为 了 消除 最 坏 情况 ， 但 我 们 希望 这 种 保障 所 需 的 代码 能 够 越 少 越 好 。 幸 
运 的 是 你 将 看 到 ， 我 们 只 需要 一 点 点 代价 就 能 用 一 种 统一 的 方式 完成 所 有 变换 。 


3.3.2” 红 黑 二 又 查找 树 

上 文 所 述 的 2-3 树 的 插入 算法 并 不 难 理解 ， 现 在 我 们 会 看 到 它 也 不 难 实 现 。 我 们 要 学 习 一 种 名 
为 红 黑 二 又 查找 树 的 简单 数据 结构 来 表达 并 实现 它 。 最 后 的 代码 量 并 不 大 ， 但 理解 这 些 代码 是 如 何 
工作 的 以 及 为 什么 能 够 工作 却 需要 一 番 仔 细 的 探究 。 
3.3.2.1 替换 3- 结 点 

红 黑 二 又 查找 树 背 后 的 基本 思想 是 用 标准 的 二 又 查找 树 ( 完 ”3- 结 点 CE 
全 由 2- 结 点 构成 ) 和 一 些 额 外 的 信息 ( 替换 3 - 结 点 ) 来 表示 2-3 人 


树 。 我 们 将 树 中 的 链接 分 为 两 种 类 型 ， 红 链接 将 两 个 2- 结 点 连 RL i 
接 起 来 构成 一 个 3- 结 点 ， 黑 链接 则 是 2-3 树 中 的 普通 链接 。 确 T(J 
切 地 说 ， 我 们 将 3- 结 点 表示 为 由 一 条 左 针 的 红色 链接 ( 两 个 2- (b) 

结 点 其 中 之 一 是 另 一 个 的 左 子 结 点 ) 相连 的 两 个 2- 结 点 ， 如 图 © 

3.3.12 所 示 。 这 种 表示 法 的 一 个 优点 是 ， 我 们 无 需 修改 就 可 以 直 pp Gey 
接 使 用 标准 二 又 查找 树 的 get() 方法 。 对 于 任意 的 23 树 , 只 小 了 3 和 和 b 间 
要 对 结 点 进行 转换 ， 我 们 都 可 以 立即 派生 出 一 棵 对 应 的 二 又 查 

找 树 。 我 们 将 用 这 种 方式 表示 2.3 树 的 二 叉 查 找 树 称 为 红 黑 二 又 。 四 33.12 的 大 休 红 全 2 过 
查找 树 ( 以 下 简称 为 红 黑 树 ) 。 个 3- 结 点 ( 另 见 彩 插 ) 


3.3.2.2 ”一 种 等 价 的 定义 

红 黑 树 的 男 一 种 定义 是 含有 红 黑 链接 并 满足 下 列 条 件 的 二 又 查找 树 : 

口 红 链接 均 为 左 链接 ; 

口 没有 任何 一 个 结 点 同时 和 两 条 红 链 接 相 连 ; 

口 该 树 是 完美 黑色 平衡 的 ， 即 任意 空 链接 到 根 结 点 的 路 径 上 的 黑 链接 数量 相同 。 

满足 这 样 定 义 的 红 黑 树 和 相应 的 2-3 树 是 一 一 对 应 的 。 
3.3.2.3 ”一 一 对 应 

如 果 我 们 将 一 棵 红 黑 树 中 的 红 链 接 画 平 , 那么 所 有 的 空 链接 到 根 结 点 的 距离 都 将 是 相同 的 ( 如 
图 3.3.13 所 示 ) 。 如 果 我 们 将 由 红 链 接 相 连 的 结 点 合并 ， 得 到 的 就 是 一 棵 2-3 树 。 相 反 ， 如 果 将 
一 棵 2-3 树 中 的 3- 结 点 画作 由 红色 左 链 接 相 连 的 两 个 2- 结 点 ， 那 么 不 会 存在 能 够 和 两 条 红 链 接 
相连 的 结 点 ， 且 树 必然 是 完美 黑色 平衡 的 ， 因 为 黑 链 接 即 2-3 树 中 的 普通 链接 ， 根 据 定义 这 些 链 
接 必然 是 完美 平衡 的 。 无 论 我 们 选择 用 何 种 方式 去 定义 它们 ， 红 黑 树 都 既是 二 又 查找 树 ， 也 是 2-3 
树 ， 如 图 3.3.14 所 示 。 因 此 ， 如 果 我 们 能 够 在 保持 一 一 对 应 关系 的 基础 上 实现 2-3 树 的 插入 算法 ， 
那么 我 们 就 能 够 将 两 个 算法 的 优点 结合 起 来 : 二 又 查找 树 中 简洁 高 效 的 查找 方法 和 2-3 树 中 高 效 
的 平衡 插入 算法 。 
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图 3.3.13 “将 红 链 接 画 平时 ， 一 棵 红 黑 树 就 是 一 棵 2-3 树 〈 另 见 彩 插 ) 


3.3.2.4 ”颜色 表示 

方便 起 见 ， 因 为 每 个 结 点 都 只 会 有 一 条 指向 自己 的 链接 〈 从 它 的 父 结 点 指向 它 ) ， 我 们 将 
链接 的 颜色 保存 在 表示 结 点 的 Node 数 据 类 型 的 布尔 变量 color 中 。 如 果 指 向 它 的 链接 是 红色 的 ， 
那么 该 变量 为 true， 黑 色 则 为 false。 我 们 约定 空 链 接 为 黑色 。 为 了 代码 的 清晰 我 们 定义 了 两 
个 常量 RED 和 BLACK 来 设置 和 测试 这 个 变量 。 我 们 使 用 私有 方法 isRed() 来 测试 一 个 结 点 和 
它 的 父 结 点 之 间 的 链接 的 颜色 。 当 我 们 提 到 一 个 结 点 的 颜色 时 ， 我 们 指 的 是 指向 该 结 点 的 链接 
的 颜色 ， 反 之 亦 然 。 颜 色 表示 的 代码 实现 如 图 3.3.15 所 示 。 


h.left.color 二 hh 


h.right.color 
的 值 是 RED re (ED 人 ) 生 的 值 是 BLACK 
(A) 如 ) (Cj 


private static final boolean RED = true; 
private static final boolean BLACK = false; 


红 黑 树 


private class Node 


Key key; // 键 

Value val; // 相关 联 的 值 

Node 1eft，right; / 左右 子 树 

int N; // 这 棵 子 树 中 的 结 点 总 数 
boolean color; // 由 其 父 结 点 指向 它 的 链接 的 颜色 





Node(Key key, Value val, int N, boolean color) 





this.key = key; 
this.val = Val; 
this.N = N; 
this.color = color; 
} 
private boolean isRed(Node x) 
if (x == null1) return false; 
return x.color == RED; 
+ 
图 3.3.14 ” 红 黑 树 和 2-3 树 的 一 一 对 应 关系 〈 另 见 彩 插 ) ” 图 3.3.15 ” 红 黑 树 的 结 点 表示 ( 男 见 彩 插 ) 


3.3.2.5 ”旋转 

在 我 们 实现 的 某 些 操作 中 可 能 会 出 现 红色 右 链接 或 者 两 条 连续 的 红 链 接 ， 但 在 操作 完成 前 这 些 
情况 都 会 被 小 心地 旋转 并 修复 。 旋 转 操作 会 改变 红 链 接 的 指向 。 首 先 ， 假 设 我 们 有 一 条 红色 的 右 链 
接 需要 被 转化 为 左 链接 (请 见 图 3.3.16 ) 。 这 个 操作 叫做 左旋 转 ， 它 对 应 的 方法 接受 一 条 指向 红 黑 
树 中 的 某 个 结 点 的 链接 作为 参数 。 假 设 被 指向 的 结 点 的 右 链接 是 红色 的 ， 这 个 方法 会 对 树 进行 必要 
的 调整 并 返回 一 个 指向 包含 同一 组 键 的 子 树 且 其 左 链接 为 红色 的 根 结 点 的 链接 。 如 果 你 对 照 图 示 中 


调整 前 后 的 情况 逐 行 阅读 这 段 代 码 ， 你 会 发 现 这 个 操作 很 容易 理解 : 我 们 只 是 将 用 两 个 键 中 的 较 小 
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者 作为 根 结 点 变 为 将 较 大 者 作为 根 结 点 。 实 现 将 一 个 红色 左 链接 转换 为 一 个 红色 右 链接 的 一 个 右 旋 
转 的 代码 完全 相同 ， 只 需要 将 left 换 成 right 即 可 ( 如 图 3.3.17 所 示 ) 。 
3.3.2.6 ”在 旋转 后 重 置 父 结 点 的 链接 

无 论 左 旋转 还 是 右 旋 转 ， 旋 转 操 作 都 会 返回 一 条 链接 。 我 们 总 是 会 用 rotateRight() 或 
rotateLeft() 的 返回 值 重 置 父 结 点 (或 是 根 结 点 ) 中 相应 的 链接 。 返 回 的 链接 可 能 是 左 链接 也 
可 能 是 右 链接 ， 但 是 我 们 总 会 将 它 赋 予 父 结 点 中 的 链接 。 这 个 链接 可 能 是 红色 也 可 能 是 黑色 一 一 
rotateLeft() 和 rotateRight() 都 通过 将 x.color 设 为 h.color 保 留 它 原来 的 颜色 。 这 可 
能 会 产生 两 条 连续 的 红 链 接 ， 但 我 们 的 算法 会 继续 用 旋转 操作 修正 这 种 情况 。 例 如 ， 代 码 h = 
rotateLeft(h); 将 旋转 结 点 h 的 红色 右 链 接 ， 使 得 h 指向 了 旋转 后 的 子 树 的 根 结 点 ( 组 成 该 子 树 
中 的 所 有 键 和 旋转 前 相同 ， 只 是 根 结 点 发 生 了 变化 ) 。 这 种 简洁 的 代码 是 我 们 使 用 递归 实现 二 又 查 
找 树 的 各 种 方法 的 主要 原因 。 你 会 看 到 ， 它 使 得 旋转 操作 成 为 了 普通 插入 操作 的 一 个 简单 补充 。 


可 能 是 左 链接 也 可 能 是 
h、 ,一 右 链 接 ， 颜色 可 红 可 黑 |， _h 
~、 2 
< Wie 
本 -5 
全 A 介 于 EN 人 关于 
和 S 之 间 ;| 大 于 5S 小 于 E “| 和 S 之 间 
Node rotateLeft(Node h) Node rotateRight(Node h) 
{ 
Node x = h.right; Node x = h.left; 
heright ss x Teft; h.left = x.right; 
Xaleft = h; x-right = hs 
x.color = h.color; x.color = h.color; 
h.color = RED; h.color = RED; 
x.N = h.N; XN = h.Ns 
h.N= 1 + size(h.left) h.N= 1 + size(h.left) 
+ Size(h.right); + Size(h.right) ; 
return x; return x; 
we "SR 
> 5 
AFE\ KF» 小 FE ) /FE | 
小 于 E {和 S 之 间 和 S 之 间 ;， 大 于 9 
图 3.3.16 左旋 转 h 的 右 链 接 〈 另 见 彩 插 ) 图 3.3.17 右 旋转 h 的 左 链接 ( 另 见 彩 插 ) 434 


在 插入 新 的 键 时 我 们 可 以 使 用 旋转 操作 帮助 我 们 保证 2-3 树 和 红 黑 树 之 间 的 一 一 对 应 关系 ， 因 为 旋 
转 操 作 可 以 保持 红 黑 树 的 两 个 重要 性 质 : 有 序 性 和 完美 平衡 性 。 也 就 是 说 ， 我 们 在 红 黑 树 中 进行 旋转 时 
无 需 为 树 的 有 序 性 或 者 完美 平衡 性 担心 。 下 面 我 们 来 看 看 应 该 如 何 使 用 旋转 操作 来 保持 红 黑 树 的 另外 两 
个 重要 性 质 (不 存在 两 条 连续 的 红 链 接 和 不 存在 红色 的 右 链接 ) 。 我 们 先 用 一 些 简单 的 情况 热 热 身 。 
3.3.2.7 ”向 2- 结 点 中 插入 新 键 

一 棵 只 含有 一 个 键 的 红 黑 树 只 含有 一 个 2- 结 点 。 插 入 另 一 个 键 之 后 ,我们 马上 就 需要 将 它们 
旋转 。 如 果 新 键 小 于 老 键 ， 我 们 只 需要 新 增 一 个 红色 的 结 点 即 可 ， 新 的 红 黑 树 和 单个 3- 结 点 完全 等 
价 。 如 果 新 键 大 于 老 键 ， 那 么 新 增 的 红色 结 点 将 会 产生 一 条 红色 的 右 链接 。 我 们 需要 使 用 root = 
rotateLeft(Croot) ; 来 将 其 旋转 为 红色 左 链 接 并 修正 根 结 点 的 链接 ， 插 和 人 操作 才 算 完成 。 两 种 情 
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况 的 结果 均 为 一 棵 和 单个 3- 结 点 等 价 的 红 黑 树 , 其 中 含有 两 个 键 , 一 条 红 链 接 , 树 的 黑 链接 高 度 为 1， 
如 图 3.3.18 所 示 。 
3.3.2.8 向 树 底部 的 2- 结 点 插入 新 键 

用 和 二 叉 查 找 树 相同 的 方式 向 一 棵 红 黑 树 中 插入 一 个 新 键 会 在 树 的 底部 新 增 一 个 结 点 (为 了 保 
证 有 序 性 ) ,但 总 是 用 红 链 接 将 新 结 点 和 它 的 父 结 点 相连 。 如 果 它 的 父 结 点 是 一 个 2- 结 点 ， 那 么 
刚才 讨论 的 两 种 处 理 方法 仍然 适用 。 如 果 指 向 新 结 点 的 是 父 结 点 的 左 链 接 ， 那 么 父 结 点 就 直接 成 为 
了 一 个 3- 结 点 ; 如 果 指 问 新 结 点 的 是 父 结 点 的 右 链接 ， 这 就 是 一 个 错误 的 3- 结 点 ， 但 一 次 左旋 转 
就 能 够 修正 它 ， 如 图 3.3.19 所 示 。 


~、 查 找 结束 
于 该 空 链接 
上 根 结 点 插入 C 
[b 指向 含有 a 的 (BD 
@Y ~ 新 结 点 的 红 链 (MM JY% 
接 将 这 个 2- 结 点 ~ (RB 
变 为 一 个 3- 结 点 在 此 处 揪 
向 右 插入 入 新 结 点 
一 根 结 点 出 现 红色 右 链 接 ， 
OPE 进行 左旋 转 
于 该 空 链接 3 


人 


(合用 红 链 接 和 (A) 
新 结 点 相连 (C) (RY 
,一 根 结 点 @ 
左旋 转 得 到 一 人 名 Q o 
个 正常 的 3- 结 点 


图 3.3.18 ”向 单个 2- 结 点 中 插入 一 个 新 键 图 3.3.19 向 树 底部 的 2- 结 点 插入 一 个 新 键 
( 另 见 彩 插 ) ( 另 见 彩 插 ) 


3.3.2.9 向 一 棵 双 键 树 〈 即 一 个 3- 结 点 ) 中 插入 新 键 
这 种 情况 又 可 分 为 三 种 子 情况 : 新 键 小 于 树 中 的 两 个 键 , 在 两 者 之 间 , 或 是 大 于 树 中 的 两 个 键 。 
每 种 情况 中 都 会 产生 一 个 同时 连接 到 两 条 红 链 接 的 结 点 ， 而 我 们 的 目标 就 是 修正 这 一 点 。 
口 三 者 中 最 简单 的 情况 是 新 键 大 于 原 树 中 的 两 个 键 ， 因 此 它 被 连接 到 3- 结 点 的 右 链 接 。 此 时 
树 是 平衡 的 ， 根 结 点 为 中 间 大 小 的 键 ， 它 有 两 条 红 链 接 分 别 和 较 小 和 较 大 的 结 点 相连 。 如 果 
我 们 将 两 条 链接 的 颜色 都 由 红 变 黑 ， 那 么 我 们 就 得 到 了 一 棵 由 三 个 结 点 组 成 、 高 为 2 的 平衡 
树 。 它 正好 能 够 对 应 一 棵 2-3 树 , 如 图 3.3.20( 左 ) 。 其 他 两 种 情况 最 终 也 会 转化 为 这 种 情况 。 
435 口 如 果 新 键 小 于 原 树 中 的 两 个 键 ， 它 会 被 连接 到 最 左边 的 空 链接 ， 这 样 就 产生 了 两 条 连续 的 红 
链接 ， 如 图 3.3.20( 中 ) 。 此 时 我 们 只 需要 将 上 层 的 红 链 接 右 旋转 即 可 得 到 第 一 种 情况 〈 中 
值 键 为 根 结 点 并 和 其 他 两 个 结 点 用 红 链 接 相 连 ) 。 
口 如 果 新 键 介 于 原 树 中 的 两 个 键 之 间 ， 这 又 会 产生 两 条 连续 的 红 链接 ， 一 条 红色 左 链 接 接 一 条 
红色 右 链接 ， 如 图 3.3.20 ( 右 ) 。 此 时 我 们 只 需要 将 下 层 的 红 链 接 左旋 转 即 可 得 到 第 二 种 情 
况 ( 两 条 连续 的 红色 左 链 接 ) 。 
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总 的 来 说 ， 我 们 通过 0 次 、1 次 和 2 次 旋转 以 及 颜色 的 变化 得 到 了 期 望 的 结果 。 在 2-3 树 中 ， 
请 确认 你 完全 理解 了 这 些 转换 ， 它 们 是 红 黑 树 的 动态 变化 的 关键 。 


新 键 最 大 新 键 最 小 
(b) ”查找 结束 
@ < 于 该 空 链接 (b; 
人 


用 红 链 接 和 人 
人 Pb 人 .一 新 结 点 相连 《61 


© 
lo) 
© 
ps 
时 
号 
泪 
本 
过 


旋转 后 变 为 (a 
红色 右 链接 


新 键 介 于 两 者 之 间 


(af “查找 结束 
“于 该 空 链接 


@ 


(a 芭 用 红 链 接 和 
6) ”新 结 点 相连 


旋转 后 变 为 红色 左 链接 


图 3.3.20 ”向 一 棵 双 键 树 〈 即 一 个 3- 结 点 ) 中 插入 一 个 新 键 的 三 种 情况 ( 另 见 彩 插 ) 


3.3.2.10 ”颜色 转换 

如 图 3.3.21 所 示 ， 我 们 专门 用 一 个 方法 flipCo- 
lors() 来 转换 一 个 结 点 的 两 个 红色 子 结 点 的 颜色 。 除 
了 将 子 结 点 的 颜色 由 红 变 黑 之 外 ， 我 们 同时 还 要 将 父 
结 点 的 颜色 由 黑 变 红 。 这 项 操作 最 重要 的 性 质 在 于 它 
和 旋转 操作 一 样 是 局 部 变换 ， 不 会 影响 整 棵 树 的 黑色 
平衡 性 。 根 据 这 一 点 ， 我 们 马上 能 够 在 下 面 完整 地 实 
现 红 黑 树 。 
3.3.2.11 根 结 点 总 是 黑色 

在 3.3.29 所 述 的 情况 中 ， 颜 色 转 换 会 使 根 结 点 变 
为 红色 。 这 也 可 能 出 现在 很 大 的 红 黑 树 中 。 严 格 地 说 ， 
红色 的 根 结 点 说 明 根 结 点 是 一 个 3- 结 点 的 一 部 分 , 但 
实际 情况 并 不 是 这 样 。 因 此 我 们 在 每 次 插入 后 都 会 将 
根 结 点 设 为 黑色 。 注 意 ， 每 当 根 结 点 由 红 变 黑 时 树 的 
黑 链接 高 度 就 会 加 1。 
3.3.2.12 ”向 树 底部 的 3- 结 点 插入 新 键 

现在 假设 我 们 需要 在 树 的 底部 的 一 个 3- 结 点 下 加 
入 一 个 新 结 点 。 前 面 讨论 过 的 三 种 情况 都 会 出 现 ， 如 
图 3.3.22 所 示 。 指 向 新 结 点 的 链接 可 能 是 3- 结 点 的 右 


可 能 是 左 链接 ， 
(Ej、 也 可 能 是 右 链接 







介 于 A 介 于 E 
小 于 A };{ 和 E 之 间 )( 和 S 之 间 )i 大 于 S 


void flipColors(Node h) 
h.color = RED; 


h.left.color = BLACK; 
h.right.color = BLACK; 


用 红 链 接 将 中 间 
< 一 结 点 和 父 结 点 相连 


CE (3) 





介 于 A 介 守 E 
小 于 A {和 E 之 间 )[ 和 5S 之 间 ， 大 于 5 


图 3.3.21 分 解 4- 结 点 的 同时 转换 链接 的 
颜色 ( 另 见 彩 插 ) 


链接 ( 此 时 我 们 只 需要 转换 颜色 即 可 ) ， 或 是 左 链接 ( 此 时 我 们 需要 进行 右 旋转 然后 再 转换 颜色 ) ， 
或 是 中 链接 〈 此 时 我 们 需要 先 左旋 转 下 层 链接 然后 右 旋转 上 层 链 接 ， 最 后 再 转换 颜色 ) 。 颜 色 转 换 
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会 使 到 中 结 点 的 链接 变 红 ， 相 当 于 将 它 送 入 了 父 结 
点 。 这 意味 着 在 父 结 点 中 继续 插入 一 个 新 键 ， 我 们 
也 会 继续 用 相同 的 办 法 解决 这 个 问题 。 
3.3.2.13 ”将 红 链 接 在 树 中 向 上 传递 

2-3 树 中 的 插入 算法 需要 我 们 分 解 3- 结 点 ， 
将 中 间 键 插入 父 结 点 ， 如 此 这 般 直到 遇 到 一 个 2- 
结 点 或 是 根 结 点 。 我 们 所 考虑 过 的 所 有 情况 都 正 
是 为 了 达成 这 个 目标 : 每 次 必要 的 旋转 之 后 我 们 
都 会 进行 颜色 转换 ， 这 使 得 中 结 点 变 红 。 在 父 结 
点 看 来 ， 处 理 这 样 一 个 红色 结 点 的 方式 和 处 理 一 
个 新 插 人 的 红色 结 点 完全 相同 ， 即 继续 把 红 链 接 
转移 到 中 结 点 上 去 。 图 3.3.23 中 总 结 的 三 种 情况 
显示 了 在 红 黑 树 中 实现 2-3 树 的 插 人 算法 的 关键 
操作 所 需 的 步骤 : 要 在 一 个 3- 结 点 下 插入 新 刍 ， 
先 创 建 一 个 临时 的 4- 结 点 ， 将 其 分 解 并 将 红 链 接 
由 中 间 键 传递 给 它 的 父 结 点 。 重 复 这 个 过 程 ， 我 
们 就 能 将 红 链 接 在 树 中 向 上 传递 , 直至 遇 到 一 个 2- 
结 点 或 者 根 结 点 。 

总 之 ， 只 要 间 慎 地 使 用 左旋 转 、 右 旋转 和 颜 
色 转 换 这 三 种 简单 的 操作 ,我 们 就 能 够 保证 插入 
操作 后 红 黑 树 和 2-3 树 的 一 一 对 应 关系 。 在 沿 着 
插入 点 到 根 结 点 的 路 径 向 上 移动 时 在 所 经 过 的 每 
个 结 点 中 顺序 完成 以 下 操作 ， 我 们 就 能 完成 插入 
操作 : 

口 如 果 右 子 结 点 是 红色 的 而 左 子 结 点 是 黑色 

的 ， 进 行 左旋 转 ; 


插入 H 





拥有 两 个 红色 子 链 接 ， 
需要 进行 颜色 转换 


(E) | 
@ 心 
(A (HY ys 


出 现 红色 右 链 
接 ， 需要 左旋 转 


| 
(E) 
@ (R 
(A (H) (5) 
[R) 
(EJ (5 
(QQ (H, 
CA 
图 3.3.22 ”向 树 底部 的 3- 结 点 插入 一 个 新 键 ( 另 
见 彩 插 ) 


口 如 果 左 子 结 点 是 红色 的 且 它 的 左 子 结 点 也 是 红色 的 ， 进 行 右 旋转 ; 


口 如 果 左 右 子 结 点 均 为 红色 ， 进 行 颜色 转换 。 


A 


你 应 该 花 点 时 间 确 认 以 上 步骤 处 理 了 前 文 描 


述 的 所 有 情况 。 请 注意 , 第 一 个 操作 表示 将 一 个 2- 
结 点 变 为 一 个 3- 结 点 和 插入 的 新 结 点 与 树 底部 的 
3- 结 点 通过 它 的 中 链接 相连 的 两 种 情况 。 


3.3.3 ”实现 


因为 保持 树 的 平衡 性 所 需 的 操作 是 由 下 向 上 


De 
! 颜色 转换 


图 3.3.23” 红 黑 树 中 红 链 接 向 上 传递 ( 另 见 彩 插 ) 


在 每 个 所 经 过 的 结 点 中 进行 的 ， 将 它们 植 入 我 们 
已 有 的 实现 中 十 分 简单 : 只 需要 在 递归 调用 之 后 
完成 这 些 操 作 即 可 ， 如 算法 3.4 所 示 。 上 一 段 中 
列 出 的 三 种 操作 都 可 以 通过 一 个 检测 两 个 结 点 的 
颜色 的 if 语句 完成 。 尽管 实现 所 需 的 代码 量 很 小 ， 
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但 如 果 没 有 我 们 学 习 过 的 两 种 抽象 数据 结构 ( 2-3 树 和 红 黑 树 ) 作为 铺垫 ， 这 段 实现 仍然 会 非常 难 
以 理解 。 在 检查 了 三 到 五 个 结 点 的 颜色 之 后 (也许 还 需要 进行 一 两 次 旋转 以 及 颜色 转换 ) ， 我 们 就 
可 以 得 到 一 棵 近乎 完美 平衡 的 二 又 查找 树 。 

图 3.3.24 给 出 了 使 用 我 们 的 标准 索引 测试 用 例 进 行 测试 的 轨迹 和 用 同一 组 键 按照 升序 构造 一 棵 
红 黑 树 的 测试 轨迹 。 仅 从 红 黑 树 的 三 种 标准 操作 的 角度 分 析 这 些 例子 对 我 们 理解 问题 很 有 帮助 ， 之 
前 我 们 也 是 这 样 做 的 。 另 一 个 基本 练习 是 检查 它们 和 2-3 树 的 一 一 对 应 关系 ( 可 以 对 比 图 3.3.10 中 
由 同一 组 键 构造 的 2-3 树 ) 。 在 两 种 情况 中 你 都 能 通过 思考 将 P 插入 红 黑 树 所 需 的 转换 来 检验 你 对 
算法 的 理解 程度 ( 请 见 练习 3.3.12 ) 。 


算法 3.4” 红 黑 树 的 插入 算法 


public class RedBlackBST<Key extends Comparable<Key>, Value> 


private Node root; 
private class Node // 含有 co1or 变 量 的 Node 对 象 (请 见 3.3.2.4 节 ) 


private boolean isRed(Node h) // 请 见 3.3.2.4 节 
private Node rotateLeft(Node h) // 请 见 图 3.3.16 
private Node rotateRight(Node h) // 请 见 图 3.3.17 
private void flipColors(Node h)  // 请 见 图 3.3.21 


private int size() // 请 见 算法 3.3 


public void put(Key key, Value val) 

{ // 查找 key， 找 到 则 更 新 其 值 ， 否 则 为 它 新 建 一 个 结 点 
root = put(root, key, val); 
root.color = BLACK; 

} 


private Node put(Node h, Key key, Value val) 


if (Ch == nu11) // 标准 的 插入 操作 ， 和 父 结 点 用 红 链 接 相 连 
return new Node(key, val, 1, RED); 


int cmp = key.compareTo(h.key); 

a (cmp < 0) h.left put(h.left, key, val); 
else if (cmp > 0) h.right = put(h.right, key, val); 
else h.val = val; 


if (CisRed(h.right) && !isRed(h.left)) h = rotateLeft(h); 
if (CisRed(h.left) && isRed(h.left.left)) h = rotateRight(h); 
if (CisRed(h.left) && isRed(h.right)) filipColors(h); 


h.N = size(h.left) + size(h.right) + 1; 
return h; 


， 


} 


除了 递归 调用 后 的 三 条 if 语句 , 红 黑 树 中 put() 的 递归 实现 和 二 又 查找 树 中 put 0) 的 实现 完全 相同 。 
它们 在 查找 路 径 上 保证 了 红 黑 树 和 2-3 树 的 一 一 对 应 关系 ,使 得 树 的 平衡 性 接近 完美 。 第 一 条 if 语句 会 
将 任意 含有 红色 右 链接 的 3- 结 点 (或 临时 的 4- 结 点 ) 向 左旋 转 ; 第 二 条 if 语句 会 将 临时 的 4- 结 点 中 两 
条 连续 红 链 接 中 的 上 层 链接 向 右 旋转 ; 第 三 条 if 语句 会 进行 颜色 转换 并 将 红 链 接 在 树 中 向 上 传递 ( 详情 
请 见 正文 ) 。 
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标准 索引 测试 用 例 用 同一 组 键 按照 升序 插入 来 构造 一 棵 红 黑 树 


图 3.3.24 红 黑 树 的 构造 轨迹 〈 另 见 彩 插 ) 


3.3.4 删除 操作 


算法 3.4 中 的 putQ 〇 方法 是 本 书 中 最 复杂 的 实现 之 一 ， 而 红 黑 树 的 deleteMin()、delete- 
Max() 和 delete() 的 实现 更 麻烦 ， 我 们 将 它们 的 完整 实现 留 做 练习 ， 但 这 里 仍然 需要 学 习 它们 的 
基本 原理 。 要 描述 删除 算法 ， 首 先 我 们 要 回 到 2-3 树 。 和 插入 操作 一 样 ， 我 们 也 可 以 定义 一 系列 局 
部 变换 来 在 删除 一 个 结 点 的 同时 保持 树 的 完美 平衡 性 。 这 个 过 程 比 插入 一 个 结 点 更 加 复杂 ， 因 为 我 
们 不 仅 要 在 (为 了 删除 一 个 结 点 而 ) 构造 临时 4- 结 点 时 沿 着 查找 路 径 向 下 进行 变换 ， 还 要 在 分 解 
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遗留 的 4- 结 点 时 沿 着 查找 路 径 向 上 进行 变换 ( 同 插入 操作 ) 。 
3.3.4.1 自 顶 向 下 的 2-3-4 树 
作为 第 一 轮 热身 ， 我 们 先 学 习 一 个 沿 查找 路 径 既 能 向 上 也 能 。 ”在 根 结 点 
向 下 进行 变换 的 稍 简 单 的 算法 : 2-3-4 树 的 插入 算法 ，2-3-4 树 中 A dh 
允许 存在 我 们 以 前 见 过 的 4- 结 点 。 它 的 插入 算法 沿 查找 路 径 向 下 
进行 变换 是 为 了 保证 当前 结 点 不 是 4- 结 点 ( 这 样 树 底 才 有 空间 来 
插入 新 的 键 ) ， 沿 查找 路 径 向 上 进行 变换 是 为 了 将 之 前 创建 的 4- 4 dn 
结 点 配 平 , 如 图 3.3.25 所 示 。 向 下 的 变换 和 我 们 在 2-3 树 中 分 解 4- 
结 点 所 进行 的 变换 完全 相同 。 如 果 根 结 点 是 4- 结 点 ， 我 们 就 将 它 企 一 全 
分 解 成 三 个 2- 结 点 ， 使 得 树 高 加 1。 在 向 下 查找 的 过 程 中 ,如果 
遇 到 一 个 父 结 点 为 2- 结 点 的 4- 结 点 , 我 们 将 4- 结 点 分 解 为 两 个 2- FA i A 
结 点 并 将 中 间 键 传递 给 它 的 父 结 点 , 使 得 父 结 点 变 为 一 个 3- 结 点 ; 
如 果 遇 到 一 个 父 结 点 为 3- 结 点 的 4- 结 点 ,我们 将 4- 结 点 分 解 为 A 名 全 
两 个 2- 结 点 并 将 中 间 键 传递 给 它 的 父 结 点 ， 使 得 父 结 点 变 为 一 个 
4- 结 点 ; 我 们 不 必 担 心 会 遇 到 父 结 点 为 4- 结 点 的 4- 结 点 ， 因 为 A 
插入 算法 本 身 就 保证 了 这 种 情况 不 会 出 现 。 到 达 树 的 底部 之 后 ， 
我 们 也 只 会 遇 到 2- 结 点 或 者 3- 结 点 , 所 以 我 们 可 以 插入 新 的 键 。 。 丰 树 底 
人 
a 


要 用 红 黑 树 实现 这 个 算法 ， 我 们 需要 : QC— 
口 将 4- 结 点 表示 为 由 三 个 2- 结 点 组 成 的 一 棵 平衡 的 子 树 ， 
根 结 点 和 两 个 子 结 点 都 用 红 链 接 相连 ; ee 
口 在 向 下 的 过 程 中 分 解 所 有 4- 结 点 并 进行 颜色 转换 ; 图 3.3.25” 自 顶 向 下 的 2-3-4 树 
口 和 插入 操作 一 样 , 在 向 上 的 过 程 中 用 旋转 将 4- 结 点 配 平 ?。 的 插入 算法 中 的 变换 


令 人 惊讶 的 是 ， 你 只 需要 移动 算法 3.4 的 put 0) 方法 中 的 一 行 代 码 就 能 实现 2-3-4 树 中 的 插 人 
操作 : 将 colorF1ipQ 语句 (及 其 放 语 句 ) 移动 到 递归 调用 之 前 (nu11 测试 和 比较 操作 之 间 ) 。 
在 多 个 进程 可 以 同时 访问 同一 棵 树 的 应 用 中 这 个 算法 优 于 2-3 树 ， 因 为 它 操作 的 总 是 当前 结 点 的 一 
个 或 两 个 链接 。 我 们 下 面 要 讲 的 删除 算法 和 它 的 插 和 人 算法 类 似 ， 而 且 也 适用 于 2-3 树 。 
3.3.4.2 ”删除 最 小 键 

在 第 二 轮 热 身 中 我 们 要 学 习 2-3 树 中 删除 最 小 键 的 操作 。 我 们 注意 到 从 树 底部 的 3- 结 点 中 删除 
键 是 很 简单 的 ， 但 2- 结 点 则 不 然 。 从 2- 结 点 中 删除 一 个 键 会 留 下 一 个 空 结 点 ， 一 般 我 们 会 将 它 替 
换 为 一 个 空 链接 ， 但 这 样 会 破坏 树 的 完美 平衡 性 。 所 以 我 们 需要 这 样 做 : 为 了 保证 我 们 不 会 删除 一 
个 2- 结 点 ， 我 们 沿 着 左 链接 向 下 进行 变换 ， 确 保 当 前 结 点 不 是 2- 结 点 〈 可 能 是 3- 结 点 ， 也 可 能 是 
临时 的 4- 结 点 ) 。 首 先 ， 根 结 点 可 能 有 两 种 情况 。 如 果 根 是 2- 结 点 且 它 的 两 个 子 结 点 都 是 2- 结 点 ， 
我 们 可 以 直接 将 这 三 个 结 点 变 成 一 个 4- 结 点 ; 否则 我 们 需要 保证 根 结 点 的 左 子 结 点 不 是 2- 结 点 ， 
如 有 必要 可 以 从 它 右 侧 的 兄弟 结 点 “ 借 ” 一 个 键 来。 以 上 情况 如 图 3.3.26 所 示 。 在 沿 着 左 链接 向 下 
的 过 程 中 ， 保 证 以 下 情况 之 一 成 立 : 

口 如 果 当 前 结 点 的 左 子 结 点 不 是 2- 结 点 ， 完 成 ; 

口 如 果 当 前 结 点 的 左 子 结 点 是 2- 结 点 而 它 的 亲 兄 弟 结 点 不 是 2- 结 点 ， 将 左 子 结 点 的 兄弟 结 点 

中 的 一 个 键 移动 到 左 子 结 点 中 ; 


@D 因为 4- 结 点 可 以 存在 ， 所 以 可 以 允许 一 个 结 点 同时 连接 到 两 条 链接 。 一 一 译 者 注 
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口 如 果 当 前 结 点 的 左 子 结 点 和 它 的 亲 兄 弟 结 点 都 。 在 根 结 点 


是 2- 结 点 ,将 左 子 结 点 、 父 结 点 中 的 最 小 键 O 
和 左 子 结 点 最 近 的 兄弟 结 点 合并 为 一 个 4- 结 a ey 
点 ,使 父 结 点 由 3- 结 点 变 为 2- 结 点 或 者 由 4- 
结 点 变 为 3- 结 点 。 (b G 
在 遍历 的 过 程 中 执行 这 个 过 程 ， 最 后 能 够 得 到 一 @) 一 ”ab (Te) 
个 含有 最 小 键 的 3- 结 点 或 者 4- 结 点 ， 然 后 我 们 就 可 
以 直接 从 中 将 其 删除 ， 将 3- 结 点 变 为 2- 结 点 ， 或 者 “在 沿 左 链接 向 下 的 过 程 中 
将 4- 结 点 变 为 3- 结 点 。 然 后 我 们 再 回头 向 上 分 解 所 
有 临时 的 4- 结 点 。 @ 一 GGpb) Gd 
3.3.4.3 删除 操作 
在 查找 路 径 上 进行 和 删除 最 小 键 相同 的 变换 同样 Bd) CE 


可 以 保证 在 查找 过 程 中 任意 当前 结 点 均 不 是 2- 结 点 。 GTf © 
如 果 被 查找 的 键 在 树 的 底部 ， 我 们 可 以 直接 删除 它 。 

如 果 不 在 ， 我 们 需要 将 它 和 它 的 后 继 结 点 交换 ， 就 和 ”在 树 底 

二 叉 查 找 树 一 样 。 因 为 当前 结 点 必然 不 是 2- 结 点 ， 问 ED i 

题 已 经 转化 为 在 一 棵 根 结 点 不 是 2- 结 点 的 子 树 中 删除 RS 
最 小 的 键 ， 我 们 可 以 在 这 棵 子 树 中 使 用 前 文 所 述 的 算 图 3.3.26 “删除 最 小 键 操作 中 的 变换 
法 。 和 以 前 一 样 ， 删 除 之 后 我 们 需要 向 上 回溯 并 分 解 

余下 的 4- 结 点 。 

本 节 末 尾 的 练习 中 有 几 道 是 关于 这 些 删 除 算法 的 例子 和 实现 的 。 有 兴趣 理解 或 实现 删除 算法 的 
读者 应 该 掌握 这 些 练习 中 的 细节 。 对 算法 研究 感 兴趣 的 读者 应 该 认识 到 这 些 方 法 的 重要 性 ， 因 为 这 
是 我 们 见 过 的 第 一 种 能 够 同时 实现 高 效 的 查找 、 插 入 和 删除 操作 的 符号 表 实现 。 下 面 我 们 将 会 验证 
这 一 点 。 


3.3.5” 红 黑 树 的 性 质 

研究 红 黑 树 的 性 质 就 是 要 检查 对 应 的 2-3 树 并 对 相应 的 2-3 树 进行 分 析 的 过 程 。 我 们 的 最 终结 
论 是 所 有 基于 红 黑 树 的 符号 表 实 现 都 能 保证 操作 的 运行 时 间 为 对 数 级 别 ( 范围 查找 除外 ， 它 所 需 的 
额外 时 间 和 返回 的 键 的 数量 成 正比 ) 。 我 们 重复 并 强调 这 一 点 是 因为 它 十 分 重要 。 
3.3.5.1 性 能 分 析 

首先 ， 无论 键 的 插入 顺序 如 何 ， 红 黑 树 都 几乎 是 完美 平衡 的 (请 见 图 3.3.27 ) 。 这 从 它 和 2-3 
树 的 一 一 对 应 关系 以 及 2-3 树 的 重要 性 质 可 以 得 到 。 


命题 G。 一 棵 大 小 为 N 的 红 黑 树 的 高 度 不 会 超过 2lgN。 


简略 的 证 明 。 红 黑 树 的 最 坏 情况 是 它 所 对 应 的 2-3 树 中 构成 最 左边 的 路 径 结 点 全 部 都 是 3- 结 点 
而 其 余 均 为 2- 结 点 。 最 左边 的 路 径 长 度 是 只 包含 2- 结 点 的 路 径 长 度 ( ~ lgN) 的 两 倍 。 要 按照 
某 种 顺序 构造 一 棵 平均 路 径 长 度 为 2lgN 的 最 差 红 黑 树 虽然 可 能 , 但 并 不 容易 。 如 果 你 喜欢 数学 ， 
你 也 许 会 喜欢 在 练习 3.3.24 中 探究 这 个 问题 的 答案 。 
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这 个 上 界 是 比较 保守 的 。 使 用 随机 的 键 序列 和 典型 应 用 中 常见 的 键 序列 进行 的 实验 都 证 明 ， 在 
一 棵 大 小 为 NN 的 红 黑 树 中 一 次 查找 所 需 的 比较 次 数 约 为 ( 1.001lgN-0.5 ) 。 另 外 ， 在 实际 情况 下 你 不 
太 可 能 遇 到 比 这 个 数字 高 得 多 的 平均 比较 次 数 ， 如 表 3.3.1 所 示 。 


和 
nde pt fh 


图 3.3.27 使 用 随机 键 构造 的 典型 红 黑 树 ， 没 有 画 出 空 链 接 ( 另 见 彩 插 ) 


表 3.3.1 使 用 RedBlackBST 的 FrequencyCounter 的 每 次 put() 操作 平均 所 需 的 比较 次 数 






tale.txt leipzig1M .txt 












比较 次 数 


模型 预测 | 实际 次 数 


比较 次 数 


单词 数 









































所 有 单词 135 635 13.6 13.5 21 191 455 | 534 580 19.1 
长 度 大 于 等 于 8 的 | 14350 12.6 4239597 | 299 593 18.4 
单词 

g, 等 
长 度 大 于 等 于 10 1 610 829 | 165 555 17.3 











的 单词 





命题 H。 一 棵 大 小 为 W 的 红 黑 树 中 ， 根 结 点 到 任意 结 点 的 平均 路 径 长 度 为 ~ 1.00lgN。 


例证 。 和 典型 的 二 又 查找 树 ( 例如 表 3.2.1 中 所 示 的 树 ) 相 比 ， 一 棵 典型 的 红 黑 树 的 平衡 性 是 
很 好 的 ， 例 如 图 3.3.27 所 示 (甚至 是 图 3.3.28 中 由 升序 键 列 构 造 的 红 黑 树 ) 。 表 3.3.1 显示 的 
数据 表明 FrequencyCounter 在 运行 中 构造 的 红 黑 树 的 路 径 长 度 ( 即 查 找 成 本 ) 比 初等 二 又 
查找 树 低 40% 左右 ， 和 预期 相符 。 自 红 黑 树 的 发 明 以 来 ,无 数 的 实验 和 实际 应 用 都 印证 了 这 
种 性 能 改进 。 


以 使 用 FrequencyCounter 在 处 理 长 度 大 于 等 于 8 的 单词 时 putQ 操作 的 成 本 为 例 ， 我 们 可 
以 看 到 平均 成 本 降低 得 更 多 (如 图 3.3.29 所 示 ) 。 这 又 一 次 验证 了 理论 模型 所 预测 的 对 数 级 别 的 运 
行 时 间 ， 只 不 过 这 次 的 惊喜 比 二 又 查找 树 的 小 ， 因 为 性 质 G 已 经 向 我 们 保证 了 这 一 点 。 节 约 的 总 成 
本 低 于 在 查找 上 节约 的 40% 的 成 本 ， 因 为 除了 比较 我 们 也 统计 了 旋转 和 颜色 变换 的 次 数 。 
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445 图 3.3.28 ”使 用 升序 键 列 构造 的 一 棵 红 黑 树 ， 没 有 画 出 空 链接 ( 另 见 彩 插 ) 
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图 3.3.29 使 用 RedBlackBST， 运行 java FrequencyCounter 8 < tale.txt 的 成 本 


红 黑 树 的 get () 方法 不 会 检查 结 点 的 颜色 ， 因 此 平衡 性 相关 的 操作 不 会 产生 任何 负担 ; 因为 树 
是 平衡 的 ， 所 以 查找 比 二 又 查找 树 更 快 。 每 个 键 只 会 被 插入 一 次 ， 但 却 可 能 被 查找 无 数 次 ， 因 此 最 
后 我 们 只 用 了 很 小 的 代价 ( 和 二 分 查找 不 同 ， 我们 可 以 保证 插入 操作 是 对 数 级 别 的 ) 就 取得 了 和 最 
优 情况 近似 的 查找 时 间 ( 因为 树 是 接近 完美 平衡 的 ， 且 查找 过 程 中 不 会 进行 任何 平衡 性 的 操作 ) 。 
查找 的 内 循环 只 会 进行 一 次 比较 并 更 新 一 条 链接 ， 非 常 简短 ， 和 二 分 查找 的 内 循环 类 似 (只 有 比较 
和 索引 运算 ) 。 这 是 我 们 见 到 的 第 一 个 能 够 保证 对 数 级 别 的 查找 和 插入 操作 的 实现 ， 它 的 内 循环 更 
紧凑 。 它 通过 了 各 种 应 用 的 考验 ， 包 括 许 多 库 实现 。 
3.3.5.2 ”有 序 符号 表 API 

红 黑 树 最 吸引 人 的 一 点 是 它 的 实现 中 最 复杂 的 代码 仅 限 于 put O)( 和 删除 ) 方法 。 二 又 查找 树 
中 的 查找 最 大 和 最 小 键 、select()、rank()、floor()、ceiling() 和 范围 查找 方法 不 做 任何 变 
动 即 可 继续 使 用 ， 因 为 红 黑 树 也 是 二 叉 查 找 树 而 这 些 操作 也 不 会 涉及 结 点 的 颜色 。 算 法 3.4 和 这 些 
方法 ( 以 及 删除 方法 ) 一 起 完整 地 实现 了 我 们 的 有 序 符 号 表 API。 这 些 方 法 都 能 从 红 黑 树 近 乎 完美 
的 平衡 性 中 受益 ， 因 为 它们 最 多 所 需 的 时 间 都 和 树 高 成 正比 。 因 此 命题 G 和 命题 E 一 起 保证 了 所 

有 操作 的 运行 时 间 是 对 数 级 别 的 。 
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命题 1。 在 一 哥 红 黑 树 中 ， 以 下 操作 在 最 十 情况 下 所 需 的 时 间 是 对 数 级 别 的 : 查找 (getC) ) 、 插 
入 (putGO ) 、 查 找 最 小 键 、 查 找 最 大 键 、floor()、ceiling()、rankQO 〇 、selectO 〇 、 人 删除 最 小 
键 (deleteMinQO ) 、 删 除 最 大 键 (deleteMaxC) ) 、 删 除 (deleteQO ) 和 范围 查询 (range() ) 。 


”证 阴 。 我 们 已 经 讨论 过 putC) 、get() 和 delete() 方法 。 对 于 其 他 方法 ， 代 码 可 以 从 3.2 节 中 
照搬 (它们 不 涉及 结 点 颜色 ) 。 命 题 G 和 命题 E 可 以 保证 算法 是 对 数 级 别 的 ， 所 有 操作 在 所 经 
过 的 结 点 上 只 会 进行 常数 次 数 的 操作 也 说 明了 这 一 点 。 

各 种 符号 表 实 现 的 性 能 总 结 如 表 3.3.2 所 示 。 


表 3.3.2 各 种 符号 表 实 现 的 性 能 总 结 













平均 情况 下 的 运行 时 间 的 增长 
数量 级 〈MN 次 插入 之 后 ) 


最 坏 情况 下 的 运行 时 间 的 增长 
数量 级 〈N 次 插入 之 后 ) 


N N 
lgN N 
N N 
2lgN 2lgN 


想 想 看 ， 这 样 的 保证 是 一 个 非凡 的 成 就 。 在 信息 世界 的 汪洋 大 海中 ， 表 的 大 小 可 能 上 千 亿 ,但 
我 们 仍 能 够 确保 在 几 十 次 比较 之 内 就 完成 这 些 操作 。 


图 答疑 
问 ”为 什么 不 允许 存在 红色 右 链接 和 4- 结 点 ? 
答 ”它们 都 是 可 用 的 ， 并 且 已 经 应 用 了 几 十 年 了 。 在 练习 中 你 会 遇 到 它们 。 只 允许 红色 左 链接 的 存在 能 
人 够 减少 可 能 出 现 的 情况 ， 因 此 实现 所 需 的 代码 会 少 得 多 。 
问 ”为 什么 不 在 Node 类 型 中 使 用 一 个 Key 类 型 的 数组 来 表示 2- 结 点 、3- 结 点 和 4- 结 点 ? 
答 ” 问 得 好 。 这 正 是 我 们 在 B- 树 (请 见 第 6 章 ) 的 实现 中 使 用 的 方案 ， 它 的 每 个 结 点 中 可 以 保存 更 多 的 
键 。 因 为 2-3 树 中 的 结 点 较 少 ， 数 组 所 带 来 的 额外 开销 太 高 了 。 
问 ”在 分 解 一 个 4- 结 点 时 ， 我 们 有 时 会 在 rotateRight() 中 将 右 结 点 的 颜色 设 为 RED ( 红 ) 然后 立即 在 
fl1ipColors() 中 将 它 的 颜色 变 为 BLACK ( 黑 ) 。 这 不 是 浪费 时 间 吗 ? 
是 的 ， 有 时 我 们 还 会 不 必要 地 反复 改变 中 结 点 的 颜色 。 从 整体 来 看 ， 多 余 的 几 次 颜色 变换 和 将 所 有 
方法 的 运行 时 间 的 增长 数量 级 从 线性 级 别提 升 到 对 数 级 别 不 是 一 个 级 别 的 。 当 然 ， 在 有 性 能 要 求 的 
应 用 中 ， 你 可 以 将 rotateRight() 和 fl1lipColors() 的 代码 在 所 需要 的 地 方 展开 来 消除 那些 额外 的 
开销 。 我 们 在 删除 中 也 会 使 用 这 两 个 方法 。 在 能 够 保证 树 的 完美 平衡 的 前 提 下 ， 它们 更 加 容易 使 用 、 
理解 和 维护 。 


是 否 支 持 有 序 性 


算法 (数据 结构 ) 相关 的 操作 










顺序 查询 (无 序 链表 ) 
二 分 查找 (有 序数 组 ) 
二 叉 树 查找 (BST ) 


2-3 树 查找 〈 红 黑 树 ) 


~ 
上 
语 


基 
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3.3.10 


3.3.11 


3.3.12 


3.3.13 


3.3.14 


3.3.15 


3.3.16 


3.3.17 


3.3.18 
3.3.19 


将 键 EASYQUTION 按 顺序 插 人 一 棵 空 2-3 树 并 画 出 结果 。 

将 键 YLPMXHCRAES 按 顺序 插入 一 棵 空 2-3 树 并 画 出 结果 。 

使 用 什么 顺序 插入 键 S E A C H X M 能 够 得 到 一 棵 高 度 为 1 的 2-3 树 ? 和 

证 明 含有 N 个 键 的 2-3 树 的 高 度 在 -|log3N|] 即 0.631gN ( 树 完全 由 3- 结 dd 

点 组 成 ) 和 ~LlgNj」( 树 完全 由 2- 结 点 组 成 ) 之 间 。 

右 图 显示 了 N=1 到 6 之 间 大 小 为 NN 的 所 有 不 同 的 2-3 树 (无 先后 次 序 ) 。 

请 画 出 N=7、8、9 和 10 的 大 小 为 N 的 所 有 不 同 的 2-3 树 。 不 
计算 用 N 个 随机 键 构造 练习 3.3.5 中 每 棵 2-3 树 的 概率 。 

以 图 3.3.8 为 例 为 图 中 的 其 他 5 种 情况 画 出 相应 的 示意 图 。 dh 
画 出 使 用 三 个 2- 结 点 和 红 链 接 一 起 表示 一 个 4- 结 点 的 所 有 可 能 方法 (不 


一 定 只 能 使 用 红色 左 链接 ) 。 Es 
下 图 中 哪些 是 红 黑 树 ( 粗 的 链接 为 红色 ) ? 
(iv) 


(D (© (i) (E) (iii) 
A 0 © 0 @ (WD ef © 
of a RA of a 


将 含有 键 E A S Y Q UT I 工 0 N 的 结 点 按 顺 序 插入 一 棵 空 红 黑 树 并 画 出 结果 。 

将 含有 键 Y L P M X H C R A ES 的 结 点 按 顺序 插入 一 棵 空 红 黑 树 并 画 出 结果 。 

在 我 们 的 标准 索引 测试 用 例 中 插入 键 P 并 画 出 插入 的 过 程 中 每 次 变换 (颜色 转换 或 是 旋转 ) 后 
的 红 黑 树 。 

真 假 判 断 : 如 果 你 按照 升序 将 键 顺序 插入 一 棵 红 黑 树 中 ， 树 的 高 度 是 单调 递增 的 。 

用 字母 A 到 K 按 顺序 构造 一 棵 红 黑 树 并 画 出 结果 ， 然 后 大 致 说 明 在 按照 升序 插入 键 来 构造 一 棵 
红 黑 树 的 过 程 中 发 生 了 什么 ( 可 以 参考 正文 中 
的 图 例 ) 。 

在 键 按照 降序 插入 红 黑 树 的 情况 下 重新 回答 
上 面 两 道 练习 。 

向 右 图 所 示 的 红 黑 树 ( 黑色 加 粗 部 分 的 链接 为 
红色 ) 中 插入 n 并 画 出 结果 ( 图 中 只 显示 了 
插入 时 的 查找 路 径 ， 你 的 解答 中 只 需 包 含 这 些 
结 点 即 可 ) 。 

随机 生成 两 棵 均 含 有 16 个 结 点 的 红 黑 树 。 画 
出 它们 (手绘 或 者 代码 绘制 均 可 ) 并 将 它们 和 
使 用 同一 组 键 构造 的 ( 非 平衡 的 ) 二 叉 查 找 树 
进行 比较 。 

对 于 2 到 10 之 间 的 N， 画 出 所 有 大 小 为 的 不 同 红 黑 树 ( 请 参考 练习 3.3.5 ) 。 

每 个 结 点 只 需要 1 位 来 保存 结 点 的 颜色 即 可 表示 2- 结 点 、3- 结 点 和 4- 结 点 。 使 用 二 叉 树 ， 我 们 
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在 每 个 结 点 需要 几 位 信息 才能 表示 5- 结 点 、6- 结 点 、7- 结 点 和 8- 结 点 ? 
3.3.20 ”计算 一 棵 大 小 为 N 是 完 美 平衡 的 二 又 查找 树 的 内 部 路 径 长 度 ， 其 中 NN 为 2 的 寡 减 1。 
3.3.21 基于 你 为 练习 3.2.10 给 出 的 答案 编写 一 个 测试 用 例 TestRB.java。 
3.3.22 ” 找 出 一 组 键 的 序列 使 得 用 它 顺序 构造 的 二 又 查找 树 比 用 它 顺 序 构造 的 红 黑 树 的 高 度 更 低 ， 或 者 
证 明 这 样 的 序列 不 存在 。 450 


图 提高 是 


3.3.23 没有 平衡 性 限制 的 2-3 树 。 使 用 2-3 树 ( 不 一 定 平衡 ) 作为 数据 结构 实现 符号 表 的 基本 API。 树 
中 的 3- 结 点 中 的 红 链接 可 以 左 斜 也 可 以 右 斜 。 树 底部 的 3- 结 点 和 新 结 点 通过 黑色 链接 相连 。 实 
验 并 估计 随机 构造 的 这 样 一 棵 大 小 为 X 的 树 的 平均 路 径 长 度 。 

3.3.24 ” 红 黑 树 的 最 坏 情况 。 找 出 如 何 构造 一 棵 大 小 为 的 最 差 红 黑 树 ， 其 中 从 根 结 点 到 几乎 所 有 空 链 
接 的 路 径 长 度 均 为 21lgN。 

3.3.25 自 项 向 下 的 2-3-4 树 。 使 用 平衡 2-3-4 树 作为 数据 结构 实现 符号 表 的 基本 API。 在 树 的 表示 中 使 
用 红 黑 链接 并 实现 正文 所 述 的 插入 算法 ， 其 中 在 沿 查找 路 径 向 下 的 过 程 中 分 解 4- 结 点 并 进行 颜 
色 转 换 ， 在 回溯 向 上 的 过 程 中 将 4- 结 点 配 平 。 

3.3.26 自 顶 向 下 一 遍 完 成 。 修 改 你 为 练习 3.3.25 给 出 的 答案 ， 不 使 用 递归 。 在 沿 查找 路 径 向 下 的 过 程 
中 分 解 并 平衡 4- 结 点 ( 以 及 3- 结 点 ) ， 最 后 在 树 底 插 入 新 键 即 可 。 

3.3.27 ”允许 红色 右 链 接 。 修 改 你 为 练习 3.3.25 给 出 的 答案 ， 人 允许 红色 右 链 接 的 存在 。 

3.3.28 自 底 向 上 的 2-3-4 树 。 使 用 平衡 2-3-4 树 作 为 数据 结构 实现 符号 表 的 基本 API。 在 树 的 表示 中 使 
用 红 黑 链接 并 用 和 算法 3.4 相同 的 递归 方式 实现 自 底 向 上 的 插入 。 你 的 插入 方法 应 该 只 需要 分 解 
查找 路 径 底 部 的 4- 结 点 ( 如 果 有 的 话 ) 。 

3.3.29 最 优 存 储 。 修 改 RedB1ackBST 的 实现 ,用 下 面 的 技巧 实现 无 需 为 结 点 颜色 的 存储 使 用 额外 的 空间 : 
要 将 结 点 标记 为 红色 ， 只 需 交换 它 的 左右 链接 。 要 检测 一 个 结 点 是 否 是 红色 ， 检 测 它 的 左 子 结 
点 是 否 大 于 它 的 右 子 结 点 。 你 需要 修改 一 些 比较 语句 来 适应 链接 的 交换 。 这 个 技巧 将 变量 的 比 
较 变 成 了 键 的 比较 ， 显 然 成 本 会 更 高 ， 但 它 说 明 在 需要 的 情况 下 这 个 变量 是 可 以 被 删 掉 的 。 

3.3.30 缓存 。 修 改 RedB1ackBST 的 实现 ， 将 最 近 访 问 的 结 点 Node 保存 在 一 个 变量 中 ， 这 样 get() 或 “|451 
putQ 在 再 次 访问 同一 个 键 时 就 只 需要 常数 时 间 了 ( 请 参考 练习 3.1.25 ) 。 

3.3.31 树 的 绘制 。 为 RedBlackBST 添加 一 个 draw() 方法 ， 像 正文 一 样 绘制 出 红 黑 树 。 

3.3.32 ”AVL 树 。AVL 树 是 一 种 二 又 查 找 树 ， 其 中 任意 结 点 的 两 棵 子 树 的 高 度 最 多 相差 1 ( 最 早 的 平衡 
树 算法 就 是 基于 使 用 旋转 保持 AVL 树 中 子 树 高 度 的 平衡 ) 。 证 明 将 其 中 由 高 度 为 偶数 的 结 点 指 
向 高 度 为 奇数 的 结 点 的 链接 设 为 红色 就 可 以 得 到 一 棵 (完美 平衡 的 ) 2-3-4 树 ， 其 中 红色 链接 可 
以 是 右 链 接 。 附 加 题 : 使 用 AVL 树 作为 数据 结构 实现 符号 表 的 API。 一 种 方法 是 在 每 个 结 点 中 
保存 它 的 高 度 并 在 递归 调用 后 使 用 旋转 来 根据 需要 调整 这 个 高 度 ; 另 一 种 方法 是 在 树 的 表示 中 
使 用 红 黑 链接 并 使 用 类 似 练习 3.3.39 和 练习 3.3.40 的 moveRedLeft() 和 moveRedRight() 的 
方法 。 

3.3.33 验证 。 为 RedBlackBST 实现 一 个 is23Q 方法 来 检查 是 否 存 在 同时 和 两 条 红 链 接 相 连 的 结 点 和 
红色 右 链接 ， 以 及 一 个 isBalanced0) 方法 来 检查 从 根 结 点 到 所 有 空 链接 的 路 径 上 的 黑 链 接 的 数 
量 是 否 相 同 。 将 这 两 个 方法 和 练习 3.2.32 的 isBST() 方法 结合 起 来 实现 一 个 isRedBlackBSTO) 
来 检查 一 棵 树 是 否 是 红 黑 树 。 
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3.3.34 


3.3.35 


3.3.36 


3.3.37 


3.3.38 


3.3.39 


3.3.40 


所 有 的 2-3 树 。 编 写 一 段 代 码 来 生成 高 度 为 2、3 和 4 的 所 有 结构 不 同 的 2-3 树 ， 分 别 共 有 2、7 
和 122 种 (提示: 使 用 符号 表 ) 。 
2-3 树 。 编 写 一 段 程 序 TwoThreeSTjava， 使 用 两 种 结 点 类 型 来 直接 表示 和 实现 2-3 查找 树 。 
2-3-4-5-6-7-8 树 。 说 明 平 衡 的 2-3-4-5-6-7-8 树 中 的 查找 和 插入 算法 。 
无 记忆 性 。 请 证 明 红 黑 树 不 是 没有 记忆 的 。 例 如 ， 如 果 你 向 树 中 插入 一 个 小 于 所 有 键 的 新 键 ， 
然后 立即 删除 树 的 最 小 键 ， 你 可 能 得 到 一 棵 不 同 的 树 。 
旋转 的 基础 定理 。 请 证 明 ， 使 用 一 系列 左旋 转 或 者 右 旋转 可 以 将 一 棵 二 又 查 找 树 转化 为 由 同一 
组 键 生成 的 其 他 任意 一 棵 二 又 查找 树 。 
删除 最 小 键 。 实 现 红 黑 树 的 deleteMin() 方法 ， 在 沿 着 树 的 最 左 路 径 向 下 的 过 程 中 实现 正文 所 
述 的 变换 ， 保 证 当前 结 点 不 是 2- 结 点 。 
解答 : 
private Node moveRedLeft(Node h) 
{ // 假设 结 点 hh 为 红色 , h.left 和 h.left.1left 都 是 黑色 ， 

// 将 h.1eft 或 者 h.1eft 的 子 结 点 之 一 变 红 

flipColors(h); 

if (isRed(h.right.left)) 

下 

h.right = rotateRight(h.right); 
h = rotateLeft(h); 
} 


return h; 


} 
public void deleteMin() 
{ 
if (!isRed(root.left) && !isRed(root.right)) 
root.color = RED; 
root = deleteMin(root); 
if (!isEmpty()) root.color = BLACK; 
+ 
private Node deleteMin(Node h) 
业 
i Ch Tene sm nuUlLTY 
return null; 
if (!isRed(h.left) && !isRed(h.left.left)) 
h = moveRedLeft(h); 
h.left = deleteMin(h. left); 
return balance(h); 


: 


其 中 的 balanceQ 方法 由 下 一 行 代码 和 算法 3.4 的 递归 put 0) 方法 中 的 最 后 5 行 代码 组 成 : 
if (isRed(h.right)) h = rotateLeft(Ch) ; 
这 里 的 flipColors (0) 方法 将 会 补 全 三 条 链接 的 颜色 ， 而 不 是 正文 中 实现 插入 操作 时 实现 的 
fl1ipColors(0) 方法 。 对 于 删除 , 我 们 会 将 父 结 点 设 为 BLACK( 黑 ) 而 将 两 个 子 结 点 设 为 RED( 红 )。 
删除 最 大 键 。 实 现 红 黑 树 的 deleteMax() 方法 。 需 要 注意 的 是 因为 红 链接 都 是 左 链接 ， 所 以 这 
里 用 到 的 变换 和 上 一 道 练习 中 的 稍 有 不 同 。 
解答 : 

private Node moveRedRight(Node h) 

{ // 假设 结 点 hh 为 红色 ,， h.right 和 h.right.1left 都 是 黑色 ， 


// 将 h.right 或 者 h.right 的 子 结 点 之 一 变 红 
flipColors(h) 
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if (LisRed(h.left.left)) 
h = rotateRight(h); 
return h; 
} 
public void deleteMax() 
{ 
if (!isRed(root.left) && !isRed(root.right)) 
root.color = RED; 
root = deleteMax (root); 
if (!isEmpty()) root.color = BLACK; 


} 
private Node deleteMax(Node h) 
if (isRed(h.left)) 
h = rotateRight(h); 
if (Ch,right == null) 
return null; 
if (!isRed(h.right) && !isRed(h.right.left)) 
h = moveRedRight(h); 
h.right = deleteMax(h.right); 
return balance(h); 
} 454 
3.3.41 删除 操作 。 将 上 两 题 中 的 方法 和 二 叉 查 找 树 的 delete() 方法 结合 起 来 , 实现 红 黑 树 的 删除 操作 。 
解答 : 
public void delete(Key key) 
{ 
if (!isRed(root.left) && !isRed(root.right)) 
root.color = RED; 
root = delete(root, key); 
if (!isEmpty()) root.color = BLACK; 
bs 
private Node delete(Node h, Key key) 
{ 
if (key.compareTo(h.key) < 0) 
E 
if (!isRed(h.left) && !isRed(h.left.left)) 
h = moveRedLeft(h); 
h.left = delete(h.left, key); 
} 
else 
{ 
if (isRed(h.left)) 
h = rotateRight(h); 
if (key.compareTo(h.key) == 0 && (h.right == nul1)) 
return nu11; 
if (!isRed(h.right) && !isRed(h.right.left)) 
h = moveRedRight (Ch); 
if (key.compareTo(h.key) == 0) 
4 
h.val = get(h.right, min(h.right).key); 
h.key = min(h.right).key; 
h.right = deleteMin(h.right); 
站 
else h.right = delete(h.right, key); 
} 


return balance(h); 


图 实验 是 

3.3.42 ”统计 红色 结 点 。 编 写 一 段 程序 ， 统计 给 定 的 红 黑 树 中 红色 结 点 所 占 的 比例 。 对 于 N=10*、10 ”和 
10"， 用 你 的 程序 统计 至 少 100 棵 随机 构造 的 大 小 为 NN 的 红 黑 树 并 得 出 一 个 猜想 。 

3.3.43 成 本 图 。 改造 RedBlackBST 的 实现 来 绘制 本 节 中 能 够 显示 计算 中 每 次 put 0) 操作 的 成 本 的 图 (请 
参考 练习 3.1.38 ) 。 

3.3.44 ”平均 查找 用 时 。 用 实验 研究 和 计算 在 一 棵 由 X 个 随机 结 点 构造 的 红 黑 树 中 到 达 一 个 随机 结 点 的 
平均 路 径 长 度 ( 内 部 路 径 长 度 除 以 N 青 加 1) 的 平均 差 和 标准 差 ， 对 于 1 到 10 000 之 间 的 每 个 
N 至 少 重复 实验 1000 遍 。 将 结果 绘制 成 和 图 3.3.30 相似 的 Tufte 图 ， 并 画 上 函数 lgN-0.5 的 曲线 。 

3.3.45 ”统计 旋转 。 改 进 你 为 练习 3.3.43 给 出 的 程序 ， 用 图 像 绘制 出 在 构造 红 黑 树 的 过 程 中 旋转 和 分 解 
结 点 的 次 数 并 讨论 结果 。 

3.3.46 ” 红 黑 树 的 高 度 。 改 进 你 为 练习 3.3.43 给 出 的 程序 ， 用 图 像 绘制 出 所 有 红 黑 树 的 高 度 并 讨论 结果 。 
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456 图 3.3.30 ”随机 构造 的 红 黑 树 中 到 达 一 个 随机 结 点 的 平均 路 径 长 度 〈 另 见 彩 插 ) 
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3.4 散 列 表 


如 果 所 有 的 键 都 是 小 整数 ， 我 们 可 以 用 一 个 数组 来 实现 无 序 的 符号 表 ， 将 键 作为 数组 的 索引 而 
数组 中 键 i 处 储存 的 就 是 它 对 应 的 值 。 这 样 我 们 就 可 以 快速 访问 任意 键 的 值 。 在 本 节 中 我 们 将 要 学 
习 散 列表 。 它 是 这 种 简易 方法 的 扩展 并 能 够 处 理 更 加 复杂 的 类 型 的 键 。 我 们 需要 用 算术 操作 将 键 转 
化 为 数组 的 索引 来 访问 数组 中 的 键 值 对 。 

使 用 散 列 的 查找 算法 分 为 两 步 。 第 一 步 是 用 散 列 函数 将 被 查找 的 键 转 化 为 数组 的 一 个 索引 。 理 
想 情 况 下 ， 不 同 的 键 都 能 转化 为 不 同 的 索引 值 。 当 然 ， 这 只 是 理想 情况 ， 所 以 我 们 需要 面 对 两 个 或 
者 多 个 键 都 会 散 列 到 相同 的 索引 值 的 情况 。 因 此 ,， 散 列 查 找 的 第 二 步 就 是 一 个 处 理 碰撞 冲突 的 过 程 ， 
如 图 3.4.1 所 示 。 在 描述 了 多 种 散 列 函数 的 计算 后 ， 我 们 会 学 习 
两 种 解决 碰撞 的 方法 : 拉链 法 和 线性 探测 法 。 

散 列 表 是 算法 在 时 间 和 空间 上 作出 权衡 的 经 典 例子 。 如 果 没 键 散 列 值 


有 内 存 限制 ， 我 们 可 以 直接 将 键 作为 ( 可 能 是 一 个 超大 的 ) 数组 的 a 2 . 
索引 ， 那 么 所 有 查找 操作 只 需要 访问 内 存 一 次 即 可 完成 。 但 这 种 理 2 , 

想 情况 不 会 经 常 出 现 , 因为 当 键 很 多 时 需要 的 内 存 太 大 。 另 一 方面 ， d 2 

如 果 没 有 时 间 限 制 ， 我 们 可 以 使 用 无 序数 组 并 进行 顺序 查找 ， 这 样 2 Ei 
就 只 需要 很 少 的 内 存 。 而 散 列表 则 使 用 了 适度 的 空间 和 时 间 并 在 这 

两 个 极端 之 间 找 到 了 一 种 平衡 。 事 实 上 ， 我 们 不 必 重 写 代 码 ， 只 需 碰撞 3 | cl 


要 调整 散 列 算法 的 参数 就 可 以 在 空间 和 时 间 之 间作 出 取舍 。 我 们 会 
使 用 概率 论 的 经 典 结论 来 帮助 我 们 选择 适当 的 参数 。 

概率 论 是 数学 分 析 的 重大 成 果 。 虽 然 它 不 在 本 书 的 讨论 范围 
之 内 ,但 我 们 将 要 学 习 的 散 列 算法 利用 了 这 些 知识 ， 这 些 算法 虽然 叶 
简单 但 应 用 广泛 。 使 用 散 列 表 ， 你 可 以 实现 在 一 般 应 用 中 拥有 ( 均 
拓 后 ) 常数 级 别 的 查找 和 插入 操作 的 符号 表 。 这 使 得 它 在 很 多 情况 图 3.4.1 散 列表 的 核心 问题 。 [857 
下 成 为 实现 简单 符号 表 的 最 佳 选择 。 458 


3.4.1 散 列 函 数 

我 们 面 对 的 第 一 个 问题 就 是 散 列 函 数 的 计算 ， 这 个 过 程 会 将 键 转化 为 数组 的 索引 。 如 果 我 们 有 
一 个 能 够 保存 M 个 键 值 对 的 数组 ,那么 我 们 就 需要 一 个 能 够 将 任意 键 转化 为 该 数组 范围 内 的 索引 ( [0， 
M-1] 范围 内 的 整数 ) 的 散 列 函数 。 我 们 要 找 的 散 列 函数 应 该 易于 计算 并 且 能 够 均匀 分 布 所 有 的 键 ， 
即 对 于 任意 键 ，0 到 M-1 之 间 的 每 个 整数 都 有 相等 的 可 能 性 与 之 对 应 ( 与 键 无 关 ) 。 这 个 要 求 似 乎 
有 些 难以 理解 。 那 么 要 理解 散 列 ， 就 首先 要 仔细 思考 如 何 去 实 现 这 样 一 个 函数 。 

散 列 函数 和 键 的 类 型 有 关 。 严 格 地 说 ， 对 于 每 种 类 型 的 键 都 我 们 都 需要 一 个 与 之 对 应 的 散 列 函 
数 。 如 果 键 是 一 个 数 ， 比 如 社会 保险 号 ， 我 们 就 可 以 直接 使 用 这 个 数 ; 如 果 键 是 一 个 字符 串 ， 比 如 
一 个 人 的 名 字 ， 我 们 就 需要 将 这 个 字符 串 转化 为 一 个 数 ; 如 果 键 含有 多 个 部 分 ， 比 如 邮件 地 址 ,我 
们 需要 用 某 种 方法 将 这 些 部 分 结合 起 来 。 对 于 许多 常见 类 型 的 键 ， 我 们 可 以 利用 Java 提供 的 默认 实 
现 。 我 们 会 简略 讨论 多 种 数据 类 型 的 散 列 函 数 。 你 应 该 看 看 它们 是 如 何 实 现 的 ， 因 为 你 也 需要 为 自 
定义 的 类 型 实现 散 列 函数 。 
3.4.1.1 典型 的 例子 

假设 在 我 们 的 应 用 中 ， 键 是 美国 的 社会 保险 号 。 一 个 社会 保险 号 含有 9 位 数字 并 被 分 为 三 个 部 
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分 ， 例 如 123.45-6789。 第 一 组 数字 表示 该 号 码 签发 的 地 区 ( 例如 ,第 一 键 。 胡 列 伪 亲信 
组 号 码 为 035 的 社会 保险 号 来 自 罗 得 岛 州 ，214 则 来 自 马里 兰州 ) ， 另 两 i " 1 
组 数字 表示 个 人 身份 。 社 会 保险 号 共有 10 亿 (10? ) 个 ， 但 假设 我 们 的 应 618 18 36 
用 程序 只 需要 处 理 几 百 个 ， 我 们 可 以 使 用 一 个 大 小 M=1000 的 散 列 表 。 散 ”302 2 
列 函 数 的 一 种 实现 方法 是 使 用 键 ( 社会 保险 号 ) 中 的 三 个 数字 。 用 第 三 2 0 多 
太 可 能 完全 平均 地 分 布 在 各 个 地 区 ) ， 但 下 面 会 讲 到 ， 更 好 的 方法 是 用 612 12 30 


所 有 9 个 数字 得 到 一 个 整数 ， 然 后 再 考虑 整数 的 散 列 函数 。 os 
3.4.1.2 ” 正 整 数 510 10 25 


将 整数 散 列 最 常用 方法 是 除 留 余数 法 。 我 们 选择 大 小 为 素数 M 的 数组 ， 423 23 35 
对 于 任意 正 整数 k， 计 算 除 以 M 的 余数 。 这 个 函数 的 计算 非常 容易 (在 5 3 958 
Java 中 为 k%M ) 并 能 够 有 效 地 将 键 散布 在 0 到 M-1 的 范围 内 。 如 果 M 不 ”9%o7 7 34 
是 素数 ， 我 们 可 能 无 法 利用 键 中 包含 的 所 有 信息 ， 这 可 能 导致 我 们 无 法 均 507 7 22 
匀 地 散 列 散 列 值 。 例 如 ， 如 果 键 是 十 进 制 数 而 M 为 10:， 那 么 我 们 只 能 利 2 1 于 
用 键 的 后 人 位 ， 这 可 能 会 产生 一 些 问题 。 举 个 简单 的 例子 ， 假 设 键 为 电话 857 5 81 
号 码 的 区 号 且 M-100。 由 于 历史 原因 ， 美 国 的 大 部 分 区 号 中 间 位 都 是 0 或 801 1 总 
者 1， 因 此 这 种 方法 会 将 大 量 的 键 散 列 为 小 于 20 的 索引 ， 但 如 果 使 用 素数 43 13 2 
97， 散 列 值 的 分 布 显 然 会 更 好 ( 一 个 离 100 更 远 的 素数 会 更 好 ) ， 如 右 侧 701 1 22 
所 示 。 与 之 类 似 ， 互 联网 中 使 用 的 他 地 址 也 不 是 随机 的 ， 所 以 如 果 我 们 想 《总 如 
用 除 留 余 数 法 将 其 散 列 就 需要 用 素数 ( 2 的 宕 除外 ) 大 小 的 数组 。 
3.4.1.3” 浮 点 数 除 留 余数 法 

如 果 键 是 0 到 1 之 间 的 实数 , 我 们 可 以 将 它 乘 以 M 并 四 舍 五 人 得 到 一 个 0 至 NM-1 之 间 的 索引 值 。 
尽管 这 个 方法 很 容易 理解 ， 但 它 是 有 缺陷 的 ， 因 为 这 种 情况 下 键 的 高 位 起 的 作用 更 大 ， 最 低位 对 散 
列 的 结果 没有 影响 。 修 正 这 个 问题 的 办 法 是 将 键 表示 为 二 进 制 数 然后 再 使 用 除 留 余数 法 (Java 就 是 
这 么 做 的 ) 。 
3.4.1.4 字符 串 

除 留 余数 法 也 可 以 处 理 较 长 的 


int hash = 0; 


键 ， 例 如 字符 串 ， 我 们 只 需 将 它们 当 入 Rn li a 0 es lenguhty Wey 
作 大 整数 即 可 。 例 如 ， 右 侧 的 代码 就 hash = CR * hash + s.charAt(i)) % M; 
能 够 用 除 留 余数 法 计算 String S 的 J 

散 列 值 : 散 列 字符 串 键 


Java 的 charAt() 函数 能 够 返回 一 个 char 值 ， 即 一 个 非 负 16 位 整数 。 如 果 R 比 任何 字符 的 值 都 
大 ， 这 种 计算 相当 于 将 字符 串 当 作 一 个 N 位 的 R 进 制 值 ， 将 它 除 以 M 并 取 余 。 一 种 叫 Homer 方法 的 
经 典 算法 用 N 次 乘法 、 加 法 和 取 余 来 计算 一 个 字符 串 的 散 列 值 。 只 要 R 足够 小 ， 不 造成 溢出 ,那么 结 
果 就 能 够 如 我 们 所 愿 ， 落 在 0 至 M-1 之 内 。 使 用 一 个 较 小 的 素数 ， 例 如 31， 可 以 保证 字符 串 中 的 所 
有 字符 都 能 发 挥 作用 。Java 的 String 的 默认 实现 使 用 了 一 个 类 似 的 方法 。 
3.4.1.5 组合 键 

如 果 键 的 类 型 含有 多 个 整 型 变量 ， 我 们 可 以 和 String 类 型 一 样 将 它们 混合 起 来 。 例 如 ， 
假设 被 查找 的 键 的 类 型 是 Date， 其 中 含有 几 个 整 型 的 域 : day ( 两 个 数字 表示 的 日 ) ，month 
( 两 个 数字 表示 的 月 ) 和 year (4 个 数字 表示 的 年 ) 。 我 们 可 以 这 样 计算 它 的 散 列 值 : 
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int hash = (((day * R + month) % M ) * R + year) % Mi 

只 要 RR 足够 小 不 造成 溢出 ， 也 可 以 表 3.4.1 所 有 例子 中 的 键 的 散 列 什 
得 到 一 个 0 至 M-1 之 间 的 散 列 值 。 在 
这 种 情况 下 我 们 可 以 通过 选择 一 个 适当 
的 M， 比 如 31， 来 省 去 括号 内 的 %M 计 
算 。 和 字符 串 的 散 列 算法 一 样 ， 这 个 方 
法 也 能 处 理 有 任意 多 整 型 变量 的 类 型 。 
3.4.1.6 Java 的 约定 

每 种 数据 类 型 都 需要 相应 的 散 列 函 数 ， 于 是 Java 令 所 有 数据 类 型 都 继承 了 一 个 能 够 返回 一 个 
32 位 整数 的 hashCode 0 方法。 每 一 种 数据 类 型 的 hashCode() 方法 都 必须 和 equals 0 方法 一 
致 。 也 就 是 说 ， 如 果 a.equals(b) 返回 true， 那么 a.hashCode() 的 返回 值 必然 和 b.hashCode() 
的 返回 值 相同 。 相 反 ， 如 果 两 个 对 象 的 hashCode() 方法 的 返回 值 不 同 ， 那么 我 们 就 知道 这 两 个 
对 象 是 不 同 的。 但 如 果 两 个 对 象 的 hashCode() 方法 的 返回 值 相同 ， 这 两 个 对 象 也 有 可 能 不 同 ， 
我 们 还 需要 用 equals (0) 方法 进行 判断 。 请 注意 ， 这 说 明 如 果 你 要 为 自 定 义 的 数据 类 型 定义 散 列 函 
数 ， 你 需要 同时 重 写 hashCode() 和 equals() 两 个 方法 。 默 认 散 列 函 数 会 返回 对 象 的 内 存 地 址 ， 
但 这 只 适用 于 很 少 的 情况 。Java 为 很 多 常用 的 数据 类 型 重 写 了 hashCode(0) 方法 (包括 String、 
Integer、Double、File 和 URL ) 。 
3.4.1.7 将 hashCode() 的 返回 值 转化 为 一 个 数组 索引 

因为 我 们 需要 的 是 数组 的 索引 而 不 是 一 个 32 位 的 整数 ， 我 们 在 实现 中 会 将 默认 的 hashCode() 
方法 和 除 留 余数 法 结合 起 来 产生 一 个 0 到 M-1 的 整数 ， 方 法 如 下 : 


private int hash(Key x) 
{ return (x.hashCode() & Ox7fffffff) % M; } 


这 段 代 码 会 将 符号 位 屏蔽 (将 一 个 32 位 整数 变 为 一 个 31 位 非 负 整数 ) ， 然 后 用 除 留 余数 法 计 
算 它 除 以 M 的 余数 。 在 使 用 这 样 的 代码 时 我 们 一 般 会 将 数组 的 大 小 M 取 为 素数 以 充分 利用 原 散 列 值 
的 所 有 位 。 注 意 : 为 了 避免 混乱 ， 我 们 在 例子 中 不 会 使 用 这 种 计算 方法 而 是 使 用 表 3.4.1 所 示 的 散 
列 值 作为 替代 。 
3.4.1.8 自 定义 的 hashCode() 方法 public class Transaction 

散 列表 的 用 例 希 望 hashCode0 方法 { ， 
能 够 将 键 平均 地 散布 为 所 有 可 能 的 32 位 


3 人 引 
散 列 值 M=5) 2 0 0 4 4 4 2 4 3 3 
散 列 值 M=16) 6 10 4 14 5 4 15 1 14 6 


private final String who; 


整数 。 也 就 是 说 ， 对 于 任意 对 象 x， 你 可 private final Date when; 
以 调用 x.hashCcode() 并 认为 有 均等 的 机 private final double amount; 
会 得 到 232 中 的 任意 一 个 32 位 整数 值 。 人 int hashCode() 

Java 中 的 String、Integer、Double、 int hash = 17; 

i , 《 7 hash = 31 * hash + who.hashCode(); 
nt born Wa hash = 31 * hash + when.hashCode(); 
能 实现 这 一 点 。 而 对 于 自己 定义 的 数据 类 hash = 31 * hash 
型 ， 你 必须 试 着 自己 实现 这 一 点 。3.4.1.5 + ((Double) amount) .hashCode() ; 


return hash; 


节 中 的 Date 例子 展示 了 一 种 可 行 的 方案 : } 

用 实例 变量 的 整数 值 和 除 留 余数 法 得 到 散 本 
列 值 。 在 Java 中 ， 所 有 的 数据 类 型 都 继 
承 了 hashCode() 方法 ， 因 此 还 有 一 个 更 自 定义 类 型 中 hashCode() 方 法 的 实现 
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简单 的 做 法 : 将 对 象 中 的 每 个 变量 的 hashCodeQ) 返回 值 转化 为 32 位 整数 并 计算 得 到 散 列 值 ， 如 
Transaction 类 所 示 。 

对 于 原始 类 型 的 对 象 ， sec hashCode() 方法 。 和 以 前 
一 样 ， 系 数 的 具体 值 ( 这 里 ) 并 不 是 很 重要 。 
3.4.1.9 ” 软 缓 存 

如 果 散 列 值 的 计算 很 耗 时 ， 那 么 我 们 或 许可 以 将 每 个 键 的 散 列 值 缓存 起 来 ， 即 在 每 个 键 中 使 用 
一 个 hash 变量 来 保存 它 的 hashCode 0) 的 返回 值 (请 见 练习 3.4.25 ) 。 第 一 次 调用 hashCode() 方 
法 时 , 我们 需要 计算 对 象 的 散 列 值 , 但 之 后 对 hashCode() 方法 的 调用 会 直接 返回 hash 变量 的 值 。 
Java 的 String 对 象 的 hashCode() 方法 就 使 用 了 这 种 ein 量 。 

总 的 来 说 ， 要 为 一 个 数据 类 型 实现 一 个 优秀 的 散 列 方法 需要 满足 三 个 条 件 : 

口 一 致 性 一 一 等 价 的 键 必然 产生 相等 的 散 列 值 ; 

口 高 效 性 一 一 计算 简便 ; 

口 均匀 性 一 一 均匀 地 散 列 所 有 的 键 。 

设计 同时 满足 这 三 个 条 件 的 散 列 函数 是 专家 们 的 事 。 有 了 各 种 内 置 函 数 ，Java 程序 员 在 使 用 散 
列 时 只 需要 调用 hashCode() 方法 即 可 ， 我 们 没有 理由 不 信任 它们 。 

但 是 ， 在 有 性 能 要 求 时 应 该 谨慎 使 用 散 列 ， 因 为 糟糕 的 散 列 函数 经 常 是 性 能 问题 的 罪魁 祸首 : 
程序 可 以 工作 但 比 预想 的 慢 得 多 。 保 证 均匀 性 的 最 好 办 法 也 许 就 是 保证 键 的 每 一 位 都 在 散 列 值 的 计 
算 中 起 到 了 相同 的 作用 ; 实现 散 列 函数 最 常见 的 错误 也 许 就 是 忽略 了 键 的 高 位 。 无 论 散 列 函 数 的 实 
现 是 什么 ， 当 性 能 很 重要 时 你 应 该 测试 所 使 用 的 所 有 散 列 函数 。 计 算 散 列 函 数 和 比较 两 个 键 ， 哪 个 
耗 时 更 多 ?你 的 散 列 函数 能 够 将 一 组 键 均匀 地 散布 在 0 到 M-1 之 间 吗 ? 用 简单 的 实现 测试 这 些 问 
题 能 够 预防 未 来 的 悲剧 。 例 如 ， 图 3.4.2 就 显示 出 ， 对 于 《 双城记》 我 们 的 hashQ 方法 在 使 用 了 
Java 的 String 类 型 的 hashCode() 方法 后 能 够 得 到 一 个 合理 的 分 布 。 


110 = 10679/97 
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图 3.4.2 《双城记 》 中 每 个 单词 的 散 列 值 的 出 现 i 0 即 单词 ，WE97) ”( 男 见 彩 插 ) 


这 些 讨 论 的 背后 是 我 们 在 使 用 散 列 时 作出 的 一 个 重要 假设 。 这 个 假设 是 一 个 我 们 实际 上 无 法 达 
到 的 理想 模型 ， 但 它 是 我 们 实现 散 列 函 数 时 的 指导 思想 。 


假设 J( 均 匀 散 列 假设 )。 我们 使 用 的 散 列 函数 能 够 均匀 并 独立 地 将 所 有 的 键 散布 于 0 到 M-1 之 间 。 


讨论 。 我 们 在 实现 散 列 函数 时 随意 指定 了 很 多 参数 ， 这 显然 无 法 实现 一 个 能 够 在 数学 意义 上 均 
勾 并 独立 地 散布 所 有 键 的 散 列 函 数 。 坚 深 的 理论 研究 告诉 我 们 想 要 找到 一 个 计算 简单 但 又 拥有 
一 致 性 和 均匀 性 的 散 列 函数 是 不 太 可 能 的 。 在 实际 应 用 中 ， 和 使 用 Math.random() 生成 随机 数 
一 样 ， 大 多 数 程序 员 都 会 满足 于 随机 数 生成 器 类 的 散 列 函数 。 很 少 有 人 会 去 检验 独立 性 ， 而 这 
个 性 质 一 般 都 不 会 满足 。 
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尽管 验证 这 个 假设 很 困难 ,假设 了 仍然 是 考察 散 列 函 数 的 重要 方式 ,原因 有 两 点 。 首 先 ,设计 
散 列 函数 时 尽量 避免 随意 指定 参数 以 防止 大 量 的 碰撞 ， 这 是 我 们 的 重要 目标 ; 其 次 ， 尽 管 我 们 可 能 
无 法 验证 假设 本 身 ， 它 提示 我 们 使 用 数学 分 析 来 预测 散 列 算法 的 性 能 并 在 实验 中 进行 验证 。 


3.4.2 ”基于 拉链 法 的 散 列 表 

一 个 散 列 函数 能 够 将 键 转化 为 数组 索引 。 散 列 算法 的 第 二 步 是 碰撞 处 理 ， 也 就 是 处 理 两 个 或 多 
个 键 的 散 列 值 相同 的 情况 。 一 种 直接 的 办 法 是 将 大 小 为 M 的 数组 中 的 每 个 元 素 指向 一 条 链表 ， 链 
表 中 的 每 个 结 点 都 存储 了 散 列 值 为 该 元 素 的 索引 的 键 值 对 。 这 种 方法 被 称 为 拉链 法 ， 因 为 发 生 冲 突 
的 元 素 都 被 存储 在 链表 中 。 这 个 方法 的 基本 思想 就 是 选择 足够 大 的 M， 使 得 所 有 链表 都 尽 可 能 短 以 
保证 高 效 的 查找 。 查 找 分 两 步 : 首先 根据 散 列 值 找到 对 应 的 链表 ， 然 后 沿 着 链表 顺序 查找 相应 的 键 。 

拉链 法 的 一 种 实现 方法 是 使 用 原始 的 链表 数据 类 型 (请 见 练习 3.4.2) 来 扩展 
SequentialSearchST (算法 3.1 ) 。 男 一 种 更 简单 的 方法 (但 效率 稍 低 ) 是 采用 一 般 性 的 策略 ， 为 
M 个 元 素 分 别 构建 符号 表 来 保存 散 列 到 这 里 的 键 ， 这 样 也 可 以 重用 我 们 之 前 的 代码 。 算 法 3.5 实现 
的 SeparateChainingHashST 使 用 了 一 个 SequentialSearchST 对 象 的 数组 ,在 put() 和 get() 
的 实现 中 先 计算 散 列 函数 来 选 定 被 查找 的 SequantialSearchST 对 象 ， 然 后 使 用 符号 表 的 putQ 
和 get() 方法 来 完成 相应 的 任务 。 










因为 我 们 要 用 M 条 链表 键 散 列 值 
保存 NN 个 键 ， 无论 键 在 各 个 链 5 2 a 
表 中 的 分 布 如 何 ,链表 的 平均  E 0 GE 加 
长 度 肯 定 是 NM。 例如, 假设 A 0 % 
所 有 的 键 都 落 在 了 第 一 条 链表  R 4 i 要 的 Lia 
上 ， 所 有 链表 的 平均 长 度 仍然 Cc 4 “0 pn 
是 (N+0+0+…+0JWMEN/M。 拉 HH 4 2 
链 法 在 实际 情况 中 很 有 用 , 因  E 0 3 BEmSn 
为 每 条 链表 确实 都 大 约 含有 M  X 2 4 i 
M 个 键 值 对 。 在 一 般 情况 中 ， A 0 四 国 m 回 因 
我 们 能 够 由 它 验 证 假设 J] 并且。 M 4 i 
可 以 依赖 这 种 高 效 的 查找 和 插  P 3 [ML shlshicl4hIRL3| 
入 实现 。 L 3 

在 标准 索引 用 例 中 使 用 基 。 E 0 
于 下 久 泪 的 数列 家 各 图 543 图 3.4.3 标准 索引 用 例 使 用 基于 拉链 法 的 散 列表 


所 示 。 
算法 3.5 ”基于 拉链 法 的 散 列表 


public class SeparateChainingHashST<Key, Value> 
{ 
private int N; // 键 值 对 总 数 
private int M; // 散 列 表 的 大 小 
private SequentialSearchST<Key,Value>[] St; // 存放 链表 对 象 的 数组 


public SeparateChainingHashST() 
{ this(997); } 
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public SeparateChainingHashST(int M) 
{ // 创建 M 条 链表 
this-M = 三 Mi 
st = (SequentialSearchST<Key, Value>[]) new SequentialSearchST[M] ; 
for Cint 1 ss OF TF < My Hp) 
st[i] = new SequentialSearchSTO; 
+} 


private int hash(Key key) 
{ return (key.hashCode() & Ox7fffffff) % M; } 


public Value get(Key key) 
{ return (Value) st[hash(key)].get(key); } 


public void put(Key key, Value val) 
{ st[hashC(key)] .put(key, val); } 


public Iterable<Key> keys() 
// 请 见 练习 3.4.19 


J 

这 段 简 单 的 符号 表 实 现 维护 着 一 条 链表 的 数组 ， 用 散 列 函数 来 为 每 个 键 选择 一 条 链表 。 简 单 起 见 ， 
我 们 使 用 了 sequentialSearchST。 在 创建 st[] 时 需要 进行 类 型 转换 ， 因 为 Java 不 允许 泛 型 的 数组 。 
默认 的 构造 函数 会 使 用 997 条 链表 ， 因 此 对 于 较 大 的 符号 表 ， 这 种 实现 比 SequentialSearchST 大 约 
会 快 1000 倍 。 当 你 能 够 预知 所 需要 的 符号 表 的 大 小 时 ， 这 段 短小 精 悍 的 方案 能 够 得 到 不 错 的 性 能 。 一 种 
更 可 靠 的 方案 是 动态 调整 链表 数组 的 大 小 ， 这 样 无 论 在 符号 表 中 有 多 少 键 值 对 都 能 保证 链表 较 短 ( 请 见 
3.4.4 节 及 练习 3.4.18 ) 。 





命题 K。 在 一 张 含 有 M 条 链表 和 N 个 键 的 的 散 列表 中 ，【( 在 假设 了 成 立 的 前 提 下 ) 任意 一 条 链 
表 中 的 键 的 数量 均 在 N/M 的 常数 因子 范围 内 的 概率 无 限 趋向 于 1。 


简略 的 证 明 。 有 了 假设 J， 这 个 问题 就 变 成 了 一 个 经 典 的 概率 论 问题 。 在 这 里 我 们 为 有 -一些 概 
， 率 论 基础 知识 的 读者 给 出 一 个 简要 的 证 明 。 


“由 二 项 分 布 可 知 ， 一 条 给 定 的 链表 正好 含有 下 个 键 的 概率 为 : 


一 (10, 0.12511...) 


0 
IM LM 二 项 分 布 (N=104, M= 103, a=10) 
因为 我 们 实际 上 是 从 N 个 键 中 取 了 其 中 下 个。 这 在 个 键 被 散 列 到 给 定 的 链表 的 概率 均 为 JM， 而 科 
下 的 (V- 有 个 键 不 被 散 列 到 给 定 的 链表 中 的 概率 均 为 (1-L/MO。 令 a=N/M， 这 个 公式 可 以 写 为 : 


-0.125 
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对 于 较 小 的 a ， 经 典 的 泊 松 分 布 可 以 非常 近似 地 表示 它 : 





一 (10, 0.12572...) 0 
| 1 | op 
ge 0 10 ， 20 30 
Kk! 泊 松 分 布 (N= 104, M= 103, au =10) 


由 此 可 得 ， 一 条 链表 中 含有 超过 ta 个 键 的 概率 不 会 超过 (ae/t)'e"。 对 于 实际 应 用 来 说 ， 这 
个 数字 非常 小 。 例 如 ， 如 果 平 均 链表 长 度 为 10， 那 么 一 个 键 的 散 列 值 落 在 一 条 长 度 超过 20 的 
链表 的 概率 不 超过 (10e/2 ) *e = 0.0084; 如 果 平 均 链表 长 度 为 20， 那 么 一 个 键 的 散 列 值 落 在 
一 条 长 度 超过 40 的 链表 的 概率 不 超过 ( 20 e/2 ) "e = 0.000 001 6。 这 个 结果 并 不 能 保证 每 条 链 
表 都 很 短 ， 但 我 们 可 以 知道 当 a 一 定时 ， 最 长 链表 的 平均 长 度 的 增长 速度 为 logMioglogN。 466 


这 段 数学 分 析 非 常 有 力 , 但 需要 注意 的 是 它 完全 依赖 于 假设 Jo 如果 散 列 函数 不 是 均匀 和 独立 的 ， 
那么 查找 和 插入 的 成 本 就 可 能 和 VN 成 正比 ， 也 就 是 和 顺序 查找 类 似 。 假 设 了 比 我 们 见 过 的 其 他 和 概 
率 有 关 的 算法 中 相应 的 假设 都 有 效 ， 但 也 更 加 难以 验证 。 在 计算 散 列 值 时 ， 我 们 假设 每 个 键 都 有 均 
等 的 机 会 被 散 列 到 M 个 索引 中 的 任意 一 个 ， 无 论 键 有 多 复杂 。 我 们 没 法 用 实验 来 验证 所 有 可 能 的 
数据 类 型 ， 所 以 我 们 会 进行 更 复杂 的 实验 ,在 实际 应 用 中 可 能 出 现 的 一 组 键 中 随机 取样 进行 验证 ， 
然后 统计 结果 并 分 析 。 好 消息 是 我 们 在 测试 中 仍然 可 以 使 用 这 个 算法 来 验证 假设 J 和 由 它 得 出 的 数 


学 推论 。 


性 质 L。 在 一 张 含 有 MM 条 链表 和 NN 个 键 的 的 散 列表 中 ， 未 命中 查找 和 插入 操作 所 需 的 比较 次 数 
为 ~N/IM。 


例证 。 在 实际 应 用 中 ，, 散 列表 算法 的 高 性 能 并 不 需要 散 列 函 数 完全 符合 假设 J 意义 上 的 均匀 性 。 

自 20 世纪 50 年 代 以 来 ， 无 数 程序 员 都 见证 了 命题 玉 所 预言 的 性 能 改进 ， 即 使 有 些 散 列 函 数 
不 是 均匀 的 ,命题 也 成 立 。 例 如 ， 图 3.4.4 所 示 的 FrequencyCounter 使 用 的 散 列表 (其 中 的 
hash() 方法 是 基于 Java 的 String 类 型 的 hashCode() 方法 ) 中 的 链表 长 度 和 理论 模型 完全 一 
致 。 这 条 性 质 的 例外 之 一 是 在 许多 情况 下 散 列 函数 未 能 使 用 键 的 所 有 信息 而 造成 的 性 能 低下 。 

除 此 之 外 ， 大 量 经 验 丰 富 的 程序 员 给 出 的 应 用 实例 令 我 们 确信 ， 在 基于 拉链 法 的 散 列表 中 使 用 
大 小 为 M 的 数组 能 够 将 查找 和 插入 操作 的 效率 提高 M 倍 。 


3.4.2.1 散 列 表 的 大 小 

在 实现 基于 拉链 法 的 散 列 表 时 ， 我 们 的 目标 是 选择 适当 的 数组 大 小 M， 既 不 会 因为 空 链表 
而 浪费 大 量 内 存 ， 也 不 会 因为 链表 太 长 而 在 查找 上 浪费 太 多 时 间 。 而 拉链 法 的 一 个 好 处 就 是 这 
并 不 是 关键 性 的 选择 。 如 果 存 人 的 键 多 于 预期 ， 查 找 所 需 的 时 间 只 会 比 选 择 更 大 的 数组 稍 长 ; 
如 果 少 于 预期 ,虽然 有 些 空间 浪费 但 查找 会 非常 快 。 当 内 存 不 是 很 紧张 时 ， 可 以 选择 一 个 足够 
大 的 M， 使 得 查找 需要 的 时 间 变 为 常数 ; 当 内 存 紧张 时 ， 选 择 尽 量 大 的 M 仍 然 能 够 将 性 能 提高 
M 倍 。 例 如 对 于 FrequencyCounter， 从 图 3.4.4 可 以 看 出 ， 每 次 操作 所 需要 的 比较 次 数 从 使 用 
SequentialSearchST 时 的 上 千 次 降低 到 了 使 用 SeparateChainingHashST 时 的 若干 次 ， 正 如 我 


人 
CN 
| 
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们 所 料 。 另 一 种 方法 是 动态 调整 数组 的 大 小 以 保持 短小 的 链表 ( 请 见 练习 3.4.18 ) 。 


&=s10.711., 
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0 10 20 30 
链表 的 长 度 (10 679 个 键 , M= 997) 


图 3.4.4 使 用 SeparateChainingHashST， 运 行 java _ FrequencyCounter 8 < tale.txt 时 所 有 链 
表 的 长 度 〈 另 见 彩 插 ) 

3.4.2.2 ”删除 操作 

要 删除 一 个 键 值 对 ， 先 用 散 列 值 找 到 含有 该 键 的 SequentialSearchST 对 象 ， 然 后 调用 该 对 象 
的 delete() 方法 (请 见 练习 3.1.5 ) 。 这 种 重用 已 有 代码 的 方式 比重 新 实现 链表 的 删除 更 好 。 
3.4.2.3 ”有 序 性 相关 的 操作 : 

散 列 最 主要 的 目的 在 于 均匀 地 将 键 散布 开 来 ,因此 在 计算 散 列 后 键 的 顺序 信息 就 丢失 了 ,如 图 3.4.5 
所 示 。 如 果 你 需要 快速 找到 最 大 或 者 最 小 的 键 ， 或 是 查找 某 个 范围 内 的 键 ， 或 是 实现 表 3.1.4 中 有 序 
符号 表 API 中 的 其 他 任何 方法 , 散 列 表 都 不 是 合适 的 选择 , 因为 这 些 操 作 的 运行 时 间 都 将 会 是 线性 的 。 

基于 拉链 法 的 散 列表 的 实现 简单 。 在 键 的 顺序 并 不 重要 的 应 用 中 ， 它 可 能 是 最 快 的 (也 是 使 
用 最 广泛 的 ) 符号 表 实现 。 当 使 用 Java 的 内 置 数据 类 型 作为 键 ， 或 是 在 使 用 含有 经 过 完善 测试 的 
hashCode 0 方法 的 自 定义 类 型 作为 键 时 ,算法 3.5 能 够 提供 快速 而 方便 的 查找 和 插入 操作 。 下 面 ， 
我 们 会 介绍 另 一 种 解决 碰撞 冲突 的 有 效 方法 。 


5 





等 价 性 测试 


[= 


0 操作 14 350 


图 3.4.5 使 用 SeparateChainingHashST， 运 行 java FrequencyCounter 8 < tale.txt 的 成 本 
(M=997) 


3.4.3 ”基于 线性 探测 法 的 散 列 表 


实现 散 列表 的 男 一 种 方式 就 是 用 大 小 为 M 的 数组 保存 个 键 值 对 ， 其 中 M>N。 我 们 需要 依靠 
数组 中 的 空位 解决 碰撞 冲突 。 基 于 这 种 策略 的 所 有 方法 被 统称 为 开放 地 址 散 列 表 。 

开放 地 址 散 列 表 中 最 简单 的 方法 叫做 线性 探测 法 : 当 碰 撞 发 生 时 ( 当 一 个 键 的 散 列 值 已 经 被 另 
一 个 不 同 的 键 占用 ) ， 我 们 直接 检查 散 列 表 中 的 下 一 个 位 置 (将 索引 值 加 1 ) 。 这 样 的 线性 探测 可 
能 会 产生 三 种 结果 : 
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口 命中 ， 该 位 置 的 键 和 被 查找 的 键 相同 ; 

口 未 命中 ， 键 为 空 〈《 该 位 置 没 有 键 ) ; 

口 继续 查找 ， 该 位 置 的 键 和 被 查找 的 键 不 同 。 

我 们 用 散 列 函数 找到 键 在 数组 中 的 索引 ， 检 查 其 中 的 键 和 被 查找 的 键 是 否 相 同 。 如 果 不 同 则 继 


续 查 找 (将 索引 增 大 ， 到 达 数 组 结尾 时 折 回 数组 的 开头 ) ， 直 到 找到 该 键 或 者 遇 到 一 个 空 元 素 ， 如 
图 3.4.6 所 示 。 我 们 习惯 将 检查 一 个 数组 位 置 是 否 含有 被 查找 的 键 的 操作 称 作 探 出。 在 这 里 它 可 以 
等 价 于 我 们 一 直 使 用 的 比较 ， 不 过 有 些 探测 实际 上 是 在 测试 键 是 否 为 空 。 


开放 地 址 类 的 散 列表 的 核心 思想 是 与 其 将 内 存 用 作 链 表 ， 不 如 将 它们 作为 在 散 列 表 的 空 元 素 。 

空 元 素 可 以 作为 查找 结束 的 标志 。 在 LinearProbingHashST 中 可 以 看 到 (算法 3.6 ) ， 使 用 这 
想来 实现 符号 表 的 API 是 十 分 简单 的 。 我 们 在 实现 中 使 用 了 并 行 数组 ， 一 条 保存 键 ， 一 条 保存 
， 并 像 前 面 讨论 的 那样 使 用 散 列 函数 产生 访问 数据 所 需 的 数组 索引 。 
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图 3.4.6 ”标准 索引 用 例 使 用 的 基于 线性 探测 的 符号 表 的 轨迹 〈 另 见 彩 插 ) 469 


算法 3.6 ”基于 线性 探测 的 符号 表 


public class LinearProbingHashST<Key, Value> 


€ 
private int N; // 符号 表 中 键 值 对 的 总 数 
private int M = 16; // 线性 探测 表 的 大 小 
private Key[] keys; // 键 


private Value[] vals; // 值 
public LinearProbingHashSTO) 
{ 

keys = (Key[]) new Object[M]; 


vals = (Value[]) new Object[M] ; 


了 
private int hash(Key key) 
{ return (key.hashCode() & Ox7fffffff) % M; } 


private void resize() // 请 见 3.4.4 节 


public void put(Key key, Value val) 


{ 
if (CN >= M/2) resize(2*M); // 将 M 加 倍 (请 见 正 文 ) 


Pn hs 
for (i = hash(key); keys[i] != null; 1 = (i + 1) % M) 
if (keys[i].equals(key)) { vals[i] = val; return; } 


keys[i] = key; 

vals[i] = val; 

N++， 
BE 
public Value get(Key key) 
{ 


for (Cint 1 = hash(key); keys[i] != null; i = (i + 1) % M) 
if (keys[i].equals(key)) 
return vals[i]; 
return null; 
} 
上 





这 段 符 号 表 的 实现 将 键 和 值 分 别 保 存在 两 个 数组 (BinarySearchST 类 型 ) 中 ， 使 用 空 〈 标记 为 
nu11 ) 来 表示 一 秘 键 的 结束 。 如 果 一 个 新 键 的 散 列 值 是 一 个 空 元 素 , 那么 就 将 它 保存 在 那里 ; 如果 不 是 ， 
我 们 就 顺序 查找 一 个 空 元 素来 保存 它 。 要 查找 一 个 键 , 我 们 从 它 的 散 列 值 开 始 顺序 查找 , 如 果 找 到 则 命中 ， 


470| “如果 遇 到 空 元 素 则 未 命中 。keys 0) 方法 的 实现 请 见 练习 3.4.19。 


3.4.3.1 删除 操作 public void delete(Key key) 

如 何 从 基于 线性 探测 的 散 列 表 中 删除 一 个 { 
键 ? 仔细 想 一 想 ， 你 会 发 现 直接 将 该 键 所 在 的 位 ep te 
置 设 为 nu11 是 不 行 的 ， 因 为 这 会 使 得 在 此 位 置 之 while (!key.equalsCkeys[i])) 
后 的 元 素 无 法 被 查找 。 例 如 ， 假 设 在 轨迹 图 的 例 he as 
子 中 (图 3.4.6 ) 我 们 需要 用 这 种 方法 删除 键 C， vals[i] = null; 

pe st i = (i+1)%M; 
然后 查找 H。H 的 散 列 值 是 4， 但 它 实际 存储 在 这 ly ele 1 nu11) 
一 簇 键 的 结尾 ， 即 7 号 位 置 。 如 果 我 们 将 5 号 位 { ， 
置 设 为 nu11，get() 方法 将 无 法 找到 H。 因 此 ， 证 Vy 0 
我 们 需要 将 簇 中 被 删除 键 的 右 侧 的 所 有 和 键 重新 插 keys[i] = null; 
人 入 散 列表 。 这 个 过 程 比 想象 的 要 复杂 ， 所 以 你 最 ht Elen 
好 以 练习 (请 见 练习 3.4.17 ) 为 例 跟踪 右 侧 这 段 代 put(keyToRedo, valToRedo); 
码 的 运行 全 过 程 。 Uh me hie he 

和 拉链 法 一 样 ， 开 放 地 址 类 的 散 列 表 的 性 能 N= 
也 依赖 于 a=N/M 的 比值 ， 但 意义 有 所 不 同 。 我 们 Ph nO ee Np ABD ES ze CM/ 2 


将 a 称 为 散 列表 的 使 用 率 。 对 于 基于 拉链 法 的 散 
列表 ，a 是 每 条 链表 的 长 度 ， 因 此 一 般 大 于 1; 基于 线性 探测 的 散 列表 的 删除 操作 
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对 于 基于 线性 探测 的 散 列表 ，a 是 表 中 已 被 占用 的 空间 的 比例 ， 它 是 不 可 能 大 于 1 的 。 事实 上 , 在 
LinearProbingHashST 中 我 们 不 允许 a 达到 1 ( 散 列 表 被 占 满 ) ， 因 为 此 时 未 命中 的 查找 会 导致 
无 限 循环 。 为 了 保证 性 能 ， 我 们 会 动态 调整 数组 的 大 小 来 保证 使 用 率 在 1/8 到 1/2 之 间 。 这 个 策略 


是 基于 数学 上 的 分 析 ， 我 们 会 在 讨论 实现 的 细节 之 前 介绍 。 471 
3.4.3.2” 键 簇 
线性 探测 的 平均 成 本 取决 于 元 素 在 插入 数组 后 聚集 成 新 键 落 和 该 久 
的 一 组 连续 的 条 目 ， 也 叫做 键 禾 ， 如 图 3.4.7 所 示 。 例 如 ， 插入 之 前 4 于 于 为 64 
在 示例 中 插入 键 C 会 产生 一 个 长 度 为 3 的 键 艇 (A C S ) 。 插入 时 新 键 
这 意味 着 插入 日 需要 探测 4 次， 因为 的 散 列 值 为 该 键入 。 ，，。 ,六 在 了 这 里 
的 第 一 个 位 置 。 显 然 ， 短 小 的 键 秘 才能 保证 较 高 的 效率 。 Rd 


随 着 插入 的 键 越 来 越 多 ， 这 个 要 求 很 难 满足 ， 较 长 的 键 徐 。 插入 之 后 也 刍 和 产生 了 
会 越 来 越 多 , 如 图 3.4.8 所 示 。 另 外 , 因为 ( 基于 均匀 性 假设 )。“” 
数组 的 每 个 位 置 都 有 相同 的 可 能 性 被 插入 一 个 新 键 , 长 键 图 3.4.7 线性 探测 法 中 的 键 答 (M=64) 
簇 更 长 的 可 能 性 比 短 键 簇 更 大 ， 因 为 新 键 的 散 列 值 无 论 落 

在 艇 中 的 任何 位 置 都 会 使 艇 的 长 度 加 1 ( 其 至 更 多 ， 如 果 这 个 艇 和 相 邻 的 簇 之 间 只 有 一 个 空 元 素 相 
隔 的 话 ) 。 下 面 我 们 要 将 键 徐 的 影响 量化 来 预测 线性 探测 法 的 性 能 ， 并 使 用 这 些 信息 在 我 们 的 实现 
中 设置 适当 的 参数 值 。 





线性 探测 法 随机 法 





Se [8064. .8192] 
图 3.4.8 ”数组 的 使 用 模式 (2048 个 键 ， 每 行 128 个 ) 472 


3.4.3.3 ”线性 探测 法 的 性 能 分 析 
尽管 最 后 的 结果 的 形式 相对 简单 ， 准 确 分 析 线 性 探测 法 的 性 能 是 非常 有 难度 的 。Knuth 在 1962 
年 作出 的 以 下 推导 是 算法 分 析 史 上 的 一 个 里 程 碑 。 
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命题 M。 在 一 张大 小 为 M 并 售 有 N=aM 个 键 的 基于 线性 探测 的 散 列表 中 ， 基 于 假设 J， 命 中 
和 未 命中 的 查找 所 需 的 探测 次 数 分 别 为 : 


1 1 1 1 
-ji 
特别 是 当 c 约 为 /2 时 ， 查找 命中 所 需要 的 探测 次 数 约 为 3/2， 未 命中 所 需要 的 约 为 5/2。 当 a 


趋 近 于 1 时， 这些 估计 值 的 精确 度 会 下 降 ， 但 不 需要 担心 这 些 情况 ， 因 为 我 们 会 保证 散 列 表 的 
使 用 率 小 于 1/2。 


讨论 。 要 计算 平均 值 ， 首 先 要 计算 在 散 列表 中 每 个 位 置 上 出 现 查 找 未 命中 所 需要 的 探测 次 数 ， 
然后 将 所 有 探测 次 数 之 和 除 以 M。 所 有 查找 未 命中 都 至 少 需 要 一 次 探测 ， 因 此 我 们 从 第 一 次 探 
测 之 后 开始 计数 。 考 虑 在 一 张 半 满 的 (WE2N) 线性 探测 散 列表 中 可 能 出 现 的 以 下 两 种 极端 情 
况 : 在 最 好 的 情况 下 ， 偶 数位 置 的 数组 元 素 都 是 空 的， 奇数 位 置 的 数组 元 素 都 是 满 的 ; 在 最 坏 
的 情况 下 ， 前 半 张 表 是 空 的 ， 后 半 张 表 是 满 的 。 键 伐 的 平均 长 度 在 两 种 情况 下 都 是 W(C2N)=1/2， 
但 未 命中 的 查找 所 需 的 探测 次 数 在 最 好 情况 下 为 1 (所 有 的 查找 都 至 少 需要 一 次 探测 ) 加 上 
(0+1+0+1+…)/(2N)=1/2， 在 最 坏 情 况 下 为 1+(VHCV-1D+…)C2N~MW4。 将 这 段 证 明 一 般 化 可 得 
未 命中 的 查找 平均 所 需 的 比较 次 数 和 键 答 长度 的 平方 成 正比 。 如 果 一 个 键 徐 的 长 度 为 +， 那么 
(1t(1-1)+…+2+1)YM=t(t+1)/(2M) 就 是 在 这 段 键 徐 中 查找 未 命中 所 需 的 平均 探测 次 数 。 因 为 所 有 
键 徐 的 总 长 度 肯定 为 W， 所 以 将 表 中 所 有 键 签 所 得 的 平均 探测 次 数 相 加 可 以 得 到 ， 一 次 未 命中 
的 查找 的 平均 成 本 为 1+N/(2M)+( 每 个 键 稚 的 长 度 的 平方 之 和 )， 再 除 以 2MWM。 因 此 ， 给 定 一 张 
散 列 表 ， 我 们 就 可 以 快速 计算 该 表 中 一 次 未 命中 查找 的 平均 成 本 〔 请 见 练习 3.4.21 ) 。 一 般 情 
况 下 ， 键 徐 的 形成 需要 一 个 复杂 的 动态 过 程 (也 就 是 线性 探测 算法 ) ， 很 难 分 析 并 找 出 特点 ， 
而 且 这 也 远 远 超 出 了 本 书 的 讨论 范围 。 





命题 M 告诉 我 们 (在 假设 了 的 前 提 下 ) 当 散 列 表 快 满 的 时 候 查 找 所 需 的 探测 次 数 是 巨大 的 〈a 


越 趋 近 于 1 , 由 公式 可 知 探测 的 次 数 也 越 来 越 大 ) , 但 当 使 用 率 a 小 于 1/2 时 探测 的 预计 次 数 只 在 1.5 
到 2.5 之 间 。 下 面 ， 我 们 为 此 来 考虑 动态 调整 散 列表 数组 的 大 小 。 


3.4.4 ”调整 数组 大 小 
我 们 可 以 使 用 第 1 章 中 
介绍 的 调整 数组 大 小 的 方法 来 
保证 散 列 表 的 使 用 率 永 远 都 
不 会 超过 1/2。 首 先 ， 我 们 的 
LinearProbingHashsT 需要 一 
个 新 的 构造 函数 ， 它 接受 一 个 
固定 的 容量 作为 参数 ( 在 算法 
3.6 的 构造 函数 中 加 入 一 行 代码 
就 可 以 在 创建 数组 之 前 将 M 设 
为 给 定 的 值 ) 。 然 后 ， 我 们 需 
要 右边 给 出 的 resize0) 方法 。 


private void resize(int cap) 
LinearProbingHashST<Key, Value> t; 
t = new LinearProbingHashST<Key, Value>(cap); 
for (Cint 1 = 0; 1 < M; i++) 
if Ckeys[il] 1s null) 
t.put(keys[i], vals[i]); 
keys = t.keys; 
vals = t.vals; 
M 雪 : 秒 。 阶 ， 


调整 线性 探测 散 列表 
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它 会 创建 一 个 新 的 给 定 大 小 的 LinearProbingHashST， 保 存 原 表 中 的 keys 和 values 变量 ， 然 后 
将 原 表 中 所 有 的 键 重 新 散 列 并 插入 到 新 表 中 。 这 使 我 们 可 以 将 数组 的 长 度 加 倍 。putQ 方法 中 的 第 
一 条 语句 会 调用 resize( 来 保证 散 列表 最 多 为 半 满 状态 。 这 段 代 码 构造 的 散 列 表 比 原来 大 一 倍 ， 
因此 a 的 值 就 会 减 半 。 和 其 他 需要 调整 数组 大 小 的 应 用 场景 一 样 ， 我 们 也 需要 在 delete() 方法 
的 最 后 加 上 : 

if (CN > 0 && N <= M/8) resize(M/2); 
以 保证 所 使 用 的 内 存量 和 表 中 的 键 值 对 数量 的 比例 总 在 一 定 范围 之 内 。 动 态 调 整数 组 大 小 可 以 为 我 
们 保证 a 不 大 于 1/2。 
3.4.4.1 拉链 法 

我 们 可 以 用 相同 的 方法 在 拉链 法 中 保持 较 短 的 链表 (平均 长 度 在 2 到 8 之 间 ) : 在 
resize() 中 将 LinearProbingHashST 替换 为 SeparateChainingHashST， 当 N >= M/2 时 调用 
resize(2*M),， 并 在 delete() 中 (在 N > 0 &&N <= M/8 时 ) 调用 resize(M/2)。 对 于 拉链 法 ， 
如 果 你 能 准确 地 估计 用 例 所 需 的 散 列表 的 大 小 N， 调 整数 组 的 工作 并 不 是 必需 的 ， 只 需要 根据 查找 
耗 时 和 ( 1+N/M ) 成 正比 来 选取 一 个 适当 的 M 即 可 。 而 对 于 线性 探测 法 ,调整 数组 的 大 小 是 必需 的 ， 
因为 当 用 例 插入 的 键 值 对 数量 超过 预期 时 它 的 查找 时 间 不 仅 会 变 得 非常 长 ， 还 会 在 散 列表 被 填 满 时 
进入 无 限 循环 。 
3.4.4.2 均 摧 分 析 

从 理论 角度 来 说 ， 当 我 们 动态 调整 数组 大 小 时 ， 需 要 找 出 均 摊 成 本 的 上 限 ， 因 为 我 们 知道 使 散 
列表 长 度 加 倍 的 插入 操作 需要 大 量 的 探测 。 


命题 N。 假设 一 张 散 列表 能 够 自己 调整 数组 的 大 小 ,初始 为 空 。 基于 假设 J 执行 任意 顺序 的 1 次 查找 、 
插入 和 删除 操作 所 需 的 时 间 和 1 成 正比 ， 所 使 用 的 内 存量 总 是 在 表 中 的 键 的 总 数 的 常数 因子 范围 内 。 
证 明 。 对 于 拉链 法 和 线性 探测 法 ， 结 合 命题 K 和 命题 M 可 知 ， 这 个 命题 只 是 对 我 们 在 第 1 章 
中 第 一 次 讨论 过 的 数组 增长 的 均 摊 分 析 的 简单 重复 而 已 。 


如 图 3.4.9 和 图 3.4.10 所 示 ， 在 FrequencyCounter 的 例子 中 ， 累 计 平 均 的 曲线 很 好 地 显示 出 
散 列 表 中 调整 数组 大 小 的 动态 行为 。 每 次 数组 长 度 加 倍 之 后 ， 累 计 平 均值 都 会 增加 约 1， 因 为 表 中 
的 每 个 键 都 需要 重新 计算 散 列 值 。 然 后 该 值 慢 慢 下 降 ， 因 为 半数 左右 的 键 被 重新 分 配 到 了 表 中 的 不 
同位 置 。 随 着 表 中 的 键 的 增加 ， 该 值 下 降 的 速度 也 慢 慢 降低 。 
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图 3.4.9 使 用 能 够 自动 调整 数组 大 小 的 SeparateChainingHashST， 运 行 java _ FrequencyCounter 
8< tale.txt 的 成 本 
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475| ”图 3.4.10 使 用 能 够 自动 调整 数组 大 小 的 LinearProbingHashST， 运行 java FrequencyCounter 8 < 


tale.txt 的 成 本 


3.4.5 ”内 存 使 用 


我 们 说 过 ， 如 果 我 们 希望 将 散 列表 的 性 能 调整 到 最 优 ， 理 解 它 的 内 存 使 用 情况 是 非常 重要 的 。 
虽然 这 种 调整 是 专家 们 的 事 儿 ， 但 通过 估计 引用 的 使 用 数量 来 粗略 计算 所 需 的 内 存量 仍然 是 很 好 的 
练习 。 方 法 如 下 : 除了 存储 键 和 值 所 需 的 空间 之 外 ,我 们 实现 的 SeparateChainingHashSsT 保存 
了 M 个 SequentialSearchST 对 象 和 它们 的 引用 。 每 个 SequentialSearchST 对 象 需要 16 字 节 ， 
它 的 每 个 引用 需要 8 字 节 。 另 外 还 有 X 个 node 对 象 ， 每 个 都 需要 24 字 节 以 及 3 个 引用 ( key、 
value 和 next ) ， 比 二 又 查找 树 的 每 个 结 点 还 多 需要 一 个 引用 。 在 使 用 动态 调整 数组 大 小 来 保证 
表 的 使 用 率 在 1/8 到 1/2 之 间 的 情况 下 ,线性 探测 使 用 4N 到 16N 个 引用 。 可 以 看 出 ,根据 内 存 用 
量 来 选择 散 列表 的 实现 并 不 容易 。 对 于 原始 数据 类 型 ， 这 些 计 算 又 有 所 不 同 ( 请 见 练习 3.4.24 ) 。 

符号 表 的 内 存 使 用 如 表 3.4.2 所 示 。 


表 3.4.2 符号 表 的 内 存 使 用 





让 深 N 个 元 素 所 需 的 内 存 〈 引 用 类 型 ) 
基于 拉链 法 的 散 列表 ~48N+32M 
基于 线性 探测 的 散 列 表 在 ~32N 和 ~128N 之 间 
476 各 种 二 叉 查 找 树 ~56N 


自 计算 机 发 展 的 伊始 ， 人 研究 人 员 就 研究 了 ( 并 且 现 在 仍 在 继续 研究 ) 散 列 表 并 找到 了 很 多 方法 
来 改进 我 们 所 讨论 过 的 几 种 基本 算法 。 你 能 找到 大 量 关 于 这 个 主题 的 文献 。 大 多 数 改 进 都 能 降低 时 
间 - 空间 的 曲线 : 在 查找 耗 时 相同 的 情况 下 使 用 更 少 的 空间 ， 或 使 在 使 用 相同 空间 的 情况 下 进行 更 
快 的 查找 。 其 他 方法 包括 提供 更 好 的 性 能 保证 ， 如 最 坏 情况 下 的 查找 成 本 ; 改进 散 列 函数 的 设计 等 。 
我 们 会 在 练习 中 讨论 其 中 的 部 分 方法 。 

拉链 法 和 线性 探测 法 的 详细 比较 取决 于 实现 的 细节 和 用 例 对 空间 和 时 间 的 要 求 。 即 使 基于 性 能 
考虑 ， 选 择 拉链 法 而 非 线性 探测 法 也 不 一 定 是 合理 的 〈 请 见 练习 3.5.31 ) 。 在 实践 中 ， 两 种 方法 的 
性 能 差别 主要 是 因为 拉链 法 为 每 个 键 值 对 都 分 配 了 一 小 块 内 存 而 线性 探测 则 为 整 张 表 使 用 了 两 个 很 
大 的 数组 。 对 于 非常 大 的 散 列 表 ， 这 些 做 法 对 内 存 管 理 系统 的 要 求 也 很 不 相同 。 在 现代 系统 中 ， 在 
性 能 优先 的 情景 下 ， 最 好 由 专家 去 把 握 这 种 平衡 。 
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有 了 这 些 假设 ,期 望 散 列表 能 够 支持 和 数组 大 小 无 关 的 常数 级 别 的 查找 和 插入 操作 是 可 能 的 。 
对 于 任意 的 符号 表 实 现 , 这 个 期 望都 是 理论 上 的 最 优 性 能 。 但 散 列表 并 非 包 治 百 病 的 灵丹妙药 , 因为 : 

口 每 种 类 型 的 键 都 需要 一 个 优秀 的 散 列 函数 ; 

口 性 能 保证 来 自 于 散 列 函数 的 质量 ; 

口 散 列 函数 的 计算 可 能 复杂 而 且 昂贵 ; 

口 难以 支持 有 序 性 相关 的 符号 表 操 作 。 

在 考察 了 这 些 基 本 问题 之 后 ， 我 们 会 在 3.5 节 的 开头 将 散 列 表 和 我 们 学 习 过 的 其 他 符号 表 的 实 


现 方法 进行 比较 。 477 
图 答疑 
问 Java 的 Integer、Double 和 Long 类 型 的 hashCode() 方法 是 如 何 实现 的 ? 
答 Integer 类 型 会 直接 返回 该 整数 的 32 位 值 。. 对 于 Double 和 [Long 类 型 ， Primes[ 癌 
Java 会 返回 值 的 机 器 表示 的 前 32 位 和 后 32 位 异 或 的 结果 。 这 些 方法 人 Sk Qk- 8p 
可 能 不 够 随机 ， 但 它们 的 确 能 够 将 值 散 列 。 
问 ” 当 能 够 动态 调整 数组 大 小 时 ， 散 列表 的 大 小 总 是 2 的 寡 ， 这 不 是 个 问 7 1 127 
题 吗 ? 这 样 hash0 方法 就 只 使 用 了 hashCode() 返回 值 的 低位 。 8 3 251 
答 是 的 ， 这 个 问题 在 默认 实现 中 特别 明显 。 解 决 这 个 问题 的 一 种 方法 是 10 3 
先 用 一 个 大 于 M 的 素数 来 散 列 键 值 对 ， 例 如 : jh 9 2039 
private int hash(Key x) 12 3 4093 
13 和 L 8191 
int t = x.hashCode() & Ox7fffffff; 14 3 16381 
if (lgM < 26) t = t % primes[1gM+5]; 15 19 32749 
return t % M; 16 15 65521 
4 下 L071 
这 段 代码 假设 我 们 使 用 了 一 个 变量 lgM， 它 的 值 等 于 lgM ( 直接 初始 ee 
化 为 该 值 ， 并 在 将 数组 长 度 加 倍 或 者 减 半 时 增 大 或 者 减 小 它 ) , 以 ”20 ”3 a 
及 一 个 数组 primes[] ， 其 中 含有 大 于 各 个 2 的 军 的 最 小 素数 (请 见 。 21 9 2097143 
右 表 ”) 。 代 码 中 的 常数 5 是 随意 取 的 一 个 值 一 我们 希望 第 一 次 取 ” 邓 15 ee 
余 操作 ( % ) 能 够 将 所 有 值 散 列 在 小 于 该 素数 的 范围 之 内 ， 而 第 二 次 24 3 16777213 
取 余 操 作 则 将 其 中 的 5 个 值 映射 到 小 于 M 的 所 有 值 中 。 请 注意 , 对 26。 ， we 
于 很 大 的 M 这 是 没有 意义 的 。 pd 39 134217689 
问 ”我 忘记 了 ， 为 什么 不 将 hash(x) 实现 为 x.hashCode() % M? 28 57 268435399 
答 散 列 值 必须 在 0 到 M-1 之 间 , 而 在 Java 中 , 取 余 (%) 的 结果 可 能 是 负数 。 30 35 15975241789 
问 ” 那 为 什么 不 将 hash (x) 实现 为 Math.abs(x.hashCode()) % M? 31 1 2147483647 


答 ” 问 得 好 ， 不幸 的 是 对 于 最 大 的 整数 Math .abs() 会 返回 一 个 负 值 。 对 将 散 列表 大 小 设 为 素数 478 
于 许多 典型 情况 ， 这 种 溢出 不 会 造成 什么 问题 ,但 对 于 散 列 表 这 可 能 
使 你 的 程序 在 几 十 亿 次 插入 之 后 崩 演 ， 这 很 难说 。 例 如 ，Java 中 字符 串 "polygenelubricants" 的 
散 列 值 为 -2”。 找 出 散 列 值 为 这 个 数 ( 以 及 为 0 ) 的 其 他 字符 串 已 经 变 成 了 一 种 有 趣 的 算法 谜 题 。 


GD 这 里 似乎 和 表 的 内 容 不 相符 ， 表 中 prime[k] 的 值 是 小 于 2 的 最 大 素数 。 一 一 译 者 注 
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芝 本 


在 算法 3.5 中 为 什么 使 用 SequentialSearchST 而 非 BinarySearchST 或 者 RedBlackBST? 
一 般 来 说 ， 我 们 希望 散 列 到 每 个 索引 值 上 的 键 越 少 越 好 ， 而 对 于 小 规模 符号 表 初 级 实现 的 性 能 一 般 


更 好 。 在 某 些 情况 下 , 使 用 这 些 复杂 的 实现 也 许 能 够 稍稍 将 性 能 提高 , 但 最 好 让 专家 来 进行 这 种 调 优 。 


斑 吾 


散 列表 的 查找 比 红 黑 树 更 快 吗 ? 
这 取决 于 键 的 类 型 ， 它 决定 了 hashCode() 的 计算 成 本 是 否 大 于 compareTo() 的 比较 成 本 。 对 于 常 


见 的 键 类 型 以 及 Java 的 默认 实现 ， 这 两 者 的 成 本 是 近似 的 ， 因 此 散 列表 会 比 红 黑 树 快 得 多 ， 因 为 它 
所 需 的 操作 次 数 是 固定 的 。 但 需要 注意 的 是 , 如 果 要 进行 有 序 性 相关 的 操作 , 这 个 问题 就 没有 意义 了 ， 
因为 散 列表 无 法 高 效 地 支持 这 些 操 作 。 进 一 步 的 讨论 请 见 3.5 节 。 


开 可 


为 什么 不 能 让 基于 线性 探测 的 散 列表 充满 四 分 之 三 ? 
没什么 特别 的 原因 。 你 可 以 选择 任意 的 a 值 并 用 命题 M 来 估计 相应 的 查找 成 本 。 对 于 a=3/4， 查 


找 命中 的 平均 成 本 为 2.5， 未 命中 的 为 8.5。 但 如 果 你 允许 a 增长 到 7/8， 查 找 示 命中 的 平均 成 本 就 


会 


达到 32.5， 这 可 能 已 经 超出 了 你 的 承受 能 力 。 随 着 a 趋 近 于 1， 命题 M 得 出 的 估计 值 的 准确 度 会 


下 降 ， 但 你 不 应 该 使 散 列 表 的 占有 率 达到 那 种 程度 。 


图 练习 


3.4.4 


3.4.5 


3.4.6 


3.4.7 


3.4.8 


3.4.9 


将 键 EASYQUTION 依次 插入 一 张 初始 为 空 且 含有 ME5 条 链表 的 基于 拉链 法 的 散 列表 中 。 
使 用 散 列 函数 11 k % M 将 第 个 字母 散 列 到 某 个 数组 索引 上 。 

重新 实现 SeparateChainingHashST， 直 接 使 用 SequentialSearchST 中 链表 部 分 的 代码 。 

修改 你 为 上 一 道 练习 给 出 的 实现 ， 为 每 个 键 值 对 添加 一 个 整 型 变量 ,将 其 值 设 为 插入 该 键 值 对 时 
散 列表 中 元 素 的 数量 。 实 现 一 个 方法 ， 将 该 变量 的 值 大 于 给 定 整数 k 的 键 (及 其 相应 的 值 ) 全 部 
删除 。 注 意 : 这 个 额外 的 功能 在 为 编译 器 实现 符号 表 时 很 有 用 。 

使 用 散 列 函 数 (a * k) % M 将 S E A R C HX M PL 中 的 第 个 键 散 列 为 一 个 数组 索引 。 编 写 
一 段 程序 找 出 a 和 最 小 的 M， 使 得 该 散 列 函 数 得 到 的 每 个 索引 都 不 相同 ( 没有 碰撞 ) 。 这 样 的 函 
数 也 被 称 为 完美 散 列 函数 。 

下 面 这 段 hashCode() 的 实现 合法 吗 ? 

public int hashCode() 

{ return 17; } 

如 果 合法 ， 请 描述 它 的 使 用 效果 ， 否 则 请 解释 原因 。 

假设 键 为 1 位 整数 。 对 于 一 个 使 用 素数 M 的 除 留 余数 法 的 散 列 函数 ， 请 证 明 对 于 键 的 每 一 位 ， 都 
存 不 同 的 两 个 键 ， 它 们 的 散 列 值 只 有 该 位 不 同 。 

考虑 对 于 整 型 的 键 将 除 留 余 数 法 的 散 列 函数 实现 为 (a * k) % M, 其 中 a 为 一 个 任意 的 固定 素数 。 
这 样 是 否 足以 利用 键 的 所 有 位 使 得 我 们 可 以 使 用 一 个 非 素数 M 了 呢 ? 

对 于 ME10、10、10 、10"、10 和 10"， 请 估计 将 个 键 插入 一 张 SeparateChainingHashsT 的 散 
列表 后 还 剩 多 少 空 链表 ? 提示 : 参考 练习 2.5.31。 

为 SeparateChainingHashST 实现 一 个 即时 的 delete() 方法 。 


3.4.10 将 键 EA SY Q UTION 依次 插入 一 张 初始 为 空 且 大 小 为 M=16 的 基于 线性 探测 法 的 散 列 


表 中 。 使 用 散 列 函 数 11 k % M 将 第 天 个 字母 散 列 到 某 个 数组 索引 上 。 对 于 M=10 将 本 题 重新 完 
成 一 遍 。 


3.4.11 


3.4.12 


3.4.13 


3.4.14 


3.4.15 


3.4.16 


3.4.17 


3.4.18 


3.4.19 


3.4.20 


3.4.21 


3.4.22 
3.4.23 
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将 键 EASYQUTION 依次 插入 一 张 初始 为 空 大 小 为 M=4 的 基于 线性 探测 法 的 散 列 表 中 ， 
数组 只 要 达到 半 满 即 自动 将 长 度 加 倍 。 使 用 散 列 函数 11 k % M 将 第 个 字母 散 列 到 某 个 数组 
索引 上 。 给 出 得 到 的 散 列表 的 内 容 。 

设 有 键 A 到 G， 散 列 值 如 下 所 示 。 将 它们 按照 一 定 顺序 插入 到 一 张 初始 为 空 大 小 为 7 的 基于 线 
性 探测 的 散 列表 中 ( 这 里 数组 的 大 小 不 会 动态 调整 ) 。 下 面 哪 个 选项 是 不 可 能 由 插入 这 些 键 产 
生 的 ? 给 出 这 些 键 在 构造 散 列表 时 可 能 所 需 的 最 大 和 最 小 探测 次 数 ， 并 给 出 相应 的 插入 顺序 来 
证 明 你 的 答案 。 
EFGACB 
EBGFD 
DFACE 
GBADE 
生意 -而 从 记 
ECADB 


© 
DO 


Bi: | 
人 


键 A B & D E F 
散 列 值 (M=7) 2 0 0 4 4 4 2 





在 下 面 哪 些 情况 中 基于 线性 探测 的 散 列 表 中 的 一 次 随机 的 命中 查找 所 需 的 时 间 是 线性 的 ? 

a. 所 有 键 均 被 散 列 到 同一 个 索引 上 

b. 所 有 键 均 被 散 列 到 不 同 的 索引 上 

c. 所 有 键 均 被 散 列 到 同一 个 偶数 索引 上 

d. 所 有 键 均 被 散 列 到 不 同 的 偶数 索引 上 

对 于 未 命中 的 查找 回答 上 一 道 练习 的 问题 ， 假 设 被 查找 的 键 被 散 列 到 表 中 任意 位 置 的 可 能 性 
均等 。 

在 最 坏 情 况 下 ， 向 一 张 初始 为 空 、 基 于 线性 探测 法 并 能 够 动态 调整 数组 大 小 的 散 列 表 中 插入 入 
个 键 需要 多 少 次 比较 ? 
假设 有 一 张大 小 为 10' 的 基于 线性 探测 的 散 列表 已 经 半 满 了 ， 被 占用 的 元 素 随 机 分 布 。 请 估计 所 
有 索引 值 中 能 够 被 100 整除 的 位 置 都 被 占用 的 概率 。 
使 用 3.4.3.1 节 的 delete0) 方法 从 标准 索引 测试 用 例 使 用 的 LinearProbingHashsT 中 删除 键 C 并 
给 出 结果 散 列 表 的 内 容 。 
为 SeparateChainingHashST 添加 一 个 构造 函数 ,使 用 例 能 够 指定 查找 操作 可 以 接受 的 在 链表 
中 进行 的 平均 探测 次 数 。 动 态 调 整数 组 的 大 小 以 保证 链表 的 平均 长 度 小 于 该 值 ， 并 使 用 答疑 中 
所 述 的 方法 来 保证 hash 0) 方法 的 系数 总 是 素数 。 
为 SeparateChainingHashST 和 LinearProbingHashST 实现 keys() 方法。 
为 LinearProbingHashsT 添加 一 个 方法 来 计算 一 次 命中 查找 的 平均 成 本 ， 假 设 表 中 每 个 键 被 查 
找 的 可 能 性 相同 。 
为 LinearProbingHashsT 添加 一 个 方法 来 计算 一 次 未 命中 查找 的 平均 成 本 ， 假 设 使 用 了 一 个 随 
机 的 散 列 函 数 。 请 注意 : 要 解决 这 个 问题 并 不 一 定 要 计算 所 有 的 散 列 函数 。 
为 下 列 数据 类 型 实现 hashCode() 方法 : Point2D、Interval、Interval2D 和 Date。 
对 于 字符 串 类 型 的 键 ,， 考虑 R = 256 和 M = 255 的 除 留 余数 法 的 散 列 函数 。 请 证 明 这 是 一 个 糟 
糕 的 选择 ， 因 为 任意 排列 的 字母 所 得 字符 串 的 散 列 值 均 相同 。 


~ 
Co 
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3.4.24 


对 于 double 类 型 ， 分 析 拉 链 法 、 线 性 探测 法 和 二 又 查找 树 的 内 存 使 用 情况 。 将 结果 整理 成 类 似 
于 表 3.4.2 的 表格 。 


图 提高 是 


3.4.25 


3.4.26 


3.4.27 


3.4.28 


3.4.29 
3.4.30 


3.4.31 


3.4.32 


散 列 值 的 缓存 。 修 改 3.4.19 节 的 Transaction 类 并 维护 一 个 变量 hash， 在 hashCode() 方法 第 
一 次 为 一 个 对 象 计算 散 列 值 后 将 值 保存 在 hash 中 , 这 样 随后 的 调用 就 不 必 重 新 计算 了 。 请 注意 : 
这 种 方法 仅 适 用 于 不 可 变 的 数据 类 型 。 

线性 探测 法 中 的 延 时 删除 。 为 LinearProbingHashST 添加 一 个 delete0) 方法 ， 在 删除 一 个 键 
值 对 时 将 其 值 设 为 nu11， 并 在 调用 resize() 方法 时 将 键 值 对 从 表 中 删除 。 这 种 方法 的 主要 难 
点 在 于 决定 何 时 应 该 调用 resize() 方法 。 请 注意 : 如 果 后 来 的 put0) 方法 为 该 键 指定 了 一 个 
新 的 值 ， 你 应 该 用 新 值 将 nu11 覆盖 掉 。 你 的 程序 在 决定 扩张 或 者 收缩 数组 时 不 但 要 考虑 到 数组 
的 空 元 素 ， 也 要 考虑 到 这 种 死 掉 的 元 素 。 

二 次 探测 。 修 改 SeparateChainingHashST， 进 行 二 次 散 列 并 选择 两 条 链表 中 的 较 短 者 。 将 键 
EASYQUTION 依次 插入 一 张 初始 为 空 且 大 小 为 M=3 的 基于 拉链 法 的 散 列表 中 ， 以 11 
k % M 作为 第 一 个 散 列 函数 ，17 k % M 作为 第 二 个 散 列 函 数 来 将 第 上 个 字母 散 列 到 某 个 数组 索 
引 上 。 给 出 插入 过 程 的 轨迹 以 及 随机 的 命中 查找 和 未 命中 查找 在 该 符号 表 中 所 需 的 平均 探测 次 
数 。 

二 次 散 列 。 修 改 LinearProbingHashST， 进 行 二 次 散 列 以 得 到 探测 起 始点 。 确 切 地 说 ， 是 将 ( 所 
有 的 ) (i + 1) % M 替 换 为 (i + k) % M, 其 中 k 是 一 个 非 零 、 和 M 互 质 且 和 键 相关 的 整数 。 提示 : 
可 以 令 M 为 素数 来 满足 互 质 的 条 件 。 使 用 上 一 道 练习 中 给 出 的 两 个 散 列 函数 , 将 键 EA SYQU 


TION 依次 插入 一 张 初始 为 空 且 大 小 为 ME11 的 基于 线性 探测 的 散 列表 中 。 给 出 插入 过 程 的 轨 


迹 以 及 随机 的 命中 查找 和 未 命中 查找 所 需 的 平均 探测 次 数 。 
删除 操作 。 分 别 为 前 两 题 中 所 述 的 散 列表 实现 即时 的 deleteQ 方法 。 
卡 方 值 ( chi 一 square statistic ) 。 为 SeparateChainingHashST 添加 一 个 方法 来 计算 散 列 表 的 
XxX"。 对 于 大 小 为 M 并 含有 个 元 素 的 散 列表 ， 这 个 值 的 定义 为 : 

X = MN-N/M) + N/M) t+ (fu -N/MD)) 
其 中 , /为 散 列 值 为 i 的 键 的 数量 。 这 个 统计 数据 是 检测 我 们 的 散 列 函 数 产生 的 随机 值 是 否 
满足 假设 的 一 种 方法 。 如 果 满 足 ， 对 于 N>cM， 这 个 值 落 在 M - VM 和 M+ VM 之 间 的 概率 
为 1 - l/c。 | 
Cuckoo 散 列 函数 。 实 现 一 个 符号 表 ， 在 其 中 维护 两 张 散 列表 和 两 个 散 列 函数 。 一 个 给 定 的 键 只 能 
存在 于 一 张 散 列表 之 中 。 在 插入 一 个 新 键 时 ， 在 其 中 一 张 散 列表 中 插入 该 键 。 如 果 这 张 表 中 该 键 
的 位 置 已 经 被 占用 了 ,: 就 用 新 键 蔡 代 老 键 并 将 老 键 插入 到 另 一 张 散 列表 中 (如果 在 这 张 表 中 该 键 
的 位 置 也 被 占用 了 ， 那 么 就 将 这 个 占用 者 重新 插入 第 一 张 散 列表 ， 把 位 置 腾 给 被 插入 的 键 ) ， 如 
此 循环 往复 。 动 态 调整 数组 大 小 以 保持 两 张 表 都 不 到 半 满 。 这 种 实现 中 查找 所 需 的 比较 次 数 在 最 
坏 情 况 下 是 一 个 常数 ， 插 和 人 操作 所 需 的 时 间 在 均 摊 后 也 是 常数 。 
散 列 攻击 。 找 出 2 个 hashCodeQ 方法 返回 值 均 相 同 且 长 度 均 为 2" 的 字符 串 。 假 设 String 类 
型 的 hashCode0) 方法 的 实现 如 下 : 


3.4.33 
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public int hashCode() 


int hash = 0; 

for (int i1 = 0; i < length(); i ++) 
hash = (hash * 31) + charAt(i); 

return hash; 


重要 提示 : Aa 和 BB 的 散 列 值 相 同 。 
炎 糕 的 散 列 函 数 。 考 虑 Java 的 早期 版 本 中 String 类 型 的 hashCode() 方法 的 实现 ， 如 下 所 示 : 


public int hashCode() 
{ 


int hash = 0; 

int skip = Math.max(1, length()/8); 

for (int i = 0; 1 < length(); i += skip) 
hash = (hash * 37) + charAt(i); 

return hash; 


} 
说 明 你 认为 设计 者 选择 这 种 实现 的 原因 以 及 为 什么 它 被 替换 成 了 上 一 道 练 习 中 的 实现 。 


图 实验 是 


3.4.34 


3.4.35 
3.4.36 


3.4.37 


3.4.38 


3.4.39 


3.4.40 


3.4.41 


3.4.42 
3.4.43 


散 列 的 成 本 。 用 各 种 常见 的 数据 类 型 进行 实验 以 得 到 hash() 方法 和 compareTo() 方法 的 耗 时 
比 的 经 验 数据 。 

卡 方 检验 。 使 用 你 为 练习 3.4.30 给 出 的 答案 验证 常用 数据 类 型 的 散 列 函数 产生 的 值 是 否 随机 。 
链表 长 度 的 范围 。 编 写 一 段 程序 ， 向 一 张 长 度 为 W100 的 基于 拉链 法 的 散 列表 中 插入 NN 个 随机 
的 int 键 ， 找 出 表 中 最 长 和 最 短 的 链表 的 长 度 ， 其 中 N=10*、10*、10” 和 10。 

混合 使 用 。 用 实验 研究 在 SeparateChainingHashST 中 使 用 正 RedBlackBST 代替 SequentialSearchST 
来 处 理 碰 撞 的 性 能 。 这 种 方案 的 优点 是 即使 散 列 函数 很 糟糕 它 仍然 能 够 保证 对 数 级 别 的 性 能 ， 
缺点 是 需要 维护 两 种 不 同 的 符号 表 实现 。 实 际 效果 如 何 呢 ? 

拉链 法 的 分 布 。 编 写 一 段 程 序 ， 向 一 张大 小 为 10 的 基于 线性 探测 法 的 散 列表 中 插入 10’ 个 小 于 
10' 的 随机 非 负 整数 并 在 每 10 次 插入 后 打印 出 当前 探测 的 总 次 数 。 讨 论 你 的 结果 在 何 种 程度 上 
验证 了 命题 K。 

线性 探测 法 的 分 布 。 问 一 张大 小 为 NN 的 基于 线性 探测 法 的 散 列 表 中 插入 N/2 个 随机 非 负 整数 并 
根据 表 中 的 键 簇 计算 一 次 未 命中 查找 的 平均 成 本 ,其 中 N=10”、10*、10” 和 10"。 讨 论 你 的 结果 
在 何 种 程度 上 验证 了 命题 M。 

绘图 。 改进 LinearProbingHashST 和 SeparateChainingHashST 的 实现 ， 使 之 绘 出 和 正文 中 
类 似 的 图 表 。 

二 次 探测 。 用 实验 研究 来 评估 二 次 探测 法 的 效果 ( 请 见 练习 3.4.27 ) 。 

二 次 散 列 。 用 实验 研究 来 评估 二 次 散 列 法 的 效果 (请 见 练习 3.4.28 ) 。 

停车 问题 (D. Knuth)。 用 实验 研究 来 验证 一 个 猜想 : 向 一 张大 小 为 M 的 基于 线性 探测 法 的 散 列 
表 中 插入 M 个 随机 键 所 需 的 比较 次 数 为 ~ cM”， 其 中 c= Vx/2 。 


中 这 个 题目 和 拉链 无 关 ， 是 原 书 的 bug。 一 一 译 者 注 
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3.5 ”应 用 


在 计算 机 发 展 的 早期 ， 符 号 表 帮 助 程序 员 从 使 用 机 器 语言 的 数字 地 址 进化 到 在 汇编 语言 中 使 用 符 
号 名 称 ; 在 现代 应 用 程序 中 ， 符 号 名 称 的 含义 能 够 通行 于 跨越 全 球 的 计算 机 网 络 。 快 速 查找 算法 曾经 
并 继续 在 计算 机 领域 中 扮演 着 重要 角色 。 符 号 表 的 现代 应 用 包括 科学 数据 的 组 织 ， 例 如 在 基因 组 数据 
中 寻找 分 子 标记 或 模式 从 而 绘制 全 基因 组 图 谱 ; 网 络 信息 的 组 织 ， 从 搜索 在 线 贸易 到 数字 图 书馆 ; 以 
及 互联 网 基础 构架 的 实现 ， 例 如 包 在 网 络 结 点 中 的 路 由 、 共 享 文件 系统 和 流 媒 体 等 。 高 效 的 查找 算法 
确保 了 这 些 以 及 无 数 其 他 重要 的 应 用 程序 成 为 可 能 。 在 本 节 中 我 们 会 考察 几 个 有 代表 性 的 例子 。 

口 能 够 快速 并 灵活 地 从 文件 中 提取 由 逗号 分 隔 的 信息 的 一 个 字典 程序 和 一 个 索引 程序 。 豆 号 分 

隔 的 格式 ( 及 类 似 格 式 ) 常用 于 存储 网 络 信息 。 

口 为 一 组 文件 构建 逆向 索引 的 一 个 程序 。 

口 一 个 表示 稀 琉 矩阵 的 数据 类 型 。 它 用 符号 表 处 理 的 问题 规模 能 够 远 远大 于 这 种 数据 类 型 的 标准 实现 。 

在 第 6 章 中 ,我 们 会 学 习 一 种 适合 于 数据 库 或 者 文件 系统 的 符号 表 ， 它 能 够 保存 的 数据 量 超过 
你 的 想象 。 

符号 表 在 本 书 其 他 章节 的 算法 中 也 会 起 到 关键 的 作用 。 例 如 ， 我 们 会 使 用 符号 表 来 表示 图 (第 
4 章 ) 以 及 处 理 字符 串 (第 5 章 ) 。 

在 本 章 中 我 们 已 经 看 到 ， 实 现 能 够 快速 进行 各 种 操作 的 符号 表 是 一 项 很 有 挑战 性 的 任务 。 另 一 
方面 ,我们 学 习 过 的 实现 都 经 过 了 仔细 研究 ， 应 用 广泛 并 且 在 许多 环境 中 都 可 用 ( 包括 Java 的 标准 
库 ) 。 从 现在 开始 ， 符 号 表 就 将 成 为 你 的 编程 工具 箱 中 的 一 件 重要 武器 。 


3.5.1 我 应 该 使 用 符号 表 的 哪 种 实现 


表 3.5.1 总 结 了 由 本 章 中 多 个 命题 和 性 质 得 到 的 各 种 符号 表 算 法 的 性 能 特点 ( 散 列表 的 最 坏 情 
况 除 外 ， 它 的 结果 来 自 于 研究 文献 并 且 也 不 太 可 能 在 实际 应 用 中 遇 到 ) 。 从 表 中 显然 可 以 知道 ， 对 
于 典型 的 应 用 程序 ， 应 该 在 散 列表 和 二 又 查 找 树 之 间 进 行 选择 。 

相对 二 又 查找 树 ， 散 列表 的 优点 在 于 代码 更 简单 ， 且 查找 时 间 最 优 〈 常 数 级 别 ， 只 要 键 的 数据 
类 型 是 标准 的 或 者 简单 到 我 们 可 以 为 它 写 出 满足 ( 或 者 近似 满足 ) 均 匀 性 假设 的 高 效 散 列 函 数 即 可 )。 
二 叉 查找 树 相 对 于 散 列表 的 优点 在 于 抽象 结构 更 简单 〈 不 需要 设计 散 列 函数 ) ， 红 黑 树 可 以 保证 最 
坏 情况 下 的 性 能 且 它 能 够 支持 的 操作 更 多 〈 如 排名 、 选 择 、 排 序 和 范围 查找 ) 。 大 多 数 程序 员 的 第 
一 选择 都 是 散 列 表 ,， 在 其 他 因素 更 重要 时 才 会 选择 红 黑 树 。 在 第 5 章 中 我 们 会 遇 到 这 个 “第 一 选择 ” 
的 例外 : 当 键 都 是 长 字符 串 时 ， 我 们 可 以 构造 出 比 红 黑 树 更 灵活 而 又 比 散 列表 更 高 效 的 数据 结构 。 


表 3.5.1 各 种 符号 表 实 现 的 渐进 性 能 的 总 结 


最 坏 情况 下 的 运行 时 间 的 增 | 平均 情况 下 的 运行 时 间 的 增 
长 数量 级 〈N 次 插入 之 后 ) | 长 数量 级 〈N 次 插入 之 后 ) | 。 关键 接口 
查找 命中 插入 

















算法 (数据 结构 ) 





顺序 查询 ( 无 序 链表 ) equalsQO) 
二 分 查找 (有 序数 组 ) compareTo() | 16N 
二 叉 树 查找 ( 二 叉 查 找 树 ) compareTo() | 64N 
2-3 树 查 找 ( 红 黑 树 ) compareTo() | 64N 
* E equals 
拉链 法 "(链表 数组 ) ee O | 48Nr64M 
equals() 在 32N 和 


hashCode() 128N 之 间 


六 需要 均匀 并 独立 的 散 列 函数 。 
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我 们 的 符号 表 实 现 已 经 可 以 广泛 应 用 于 各 种 应 用 程序 ， 但 经 过 简单 的 修改 后 这 些 算法 还 可 以 适 
应 并 支持 其 他 一 些 使 用 广泛 的 场景 ， 有 必要 在 这 里 提 一 下 。 
3.5.1.1 原始 数据 类 型 

假设 我 们 有 一 张 符 号 表 ， 其 中 整 型 的 键 对 应 着 浮 点 型 的 标准 实现 


数据 存储 在 Key 和 
值 。 如 果 使 用 我 们 的 标准 实现 ， 键 和 值 会 被 储存 在 Integer 和 Value 对 象 中 
Double 类 中 , 因此 我 们 需要 两 个 额外 的 引用 来 访问 每 个 键 值 对 。 人 NN\ 
如 果 应 用 程序 只 会 使 用 几 千 个 键 进行 几 千 次 查找 ， 那 么 这 些 引 六 


用 可 能 没什么 问题 。 但 如 果 是 对 几 十 亿 个 键 进行 几 十 亿 次 查找 ， 
那么 这 些 引 用 就 会 造成 巨大 的 额外 开销 。 使 用 原始 数据 类 型 代 
替 Key 类 型 可 以 为 每 个 键 值 对 节省 一 个 引用 。 当 键 的 值 也 是 原 
始 数据 类 型 时 我 们 又 可 以 节约 另外 一 个 引用 。 图 3.5.1 显示 了 在 原始 数据 类 型 的 实现 
拉链 法 中 使 用 原始 数据 类 型 的 情况 ， 这 种 交换 也 适用 于 符号 表 Rt 
的 其 他 实现 。 对 于 性 能 优先 的 应 用 程序 ， 这 种 改进 并 不 困难 并 
且 值 得 一 试 (请 见 练习 3.5.4 ) 。 
3.5.1.2 ”重复 键 
符号 表 的 实现 有 时 需要 专门 考虑 重复 键 的 可 能 性 。 许 多 应 
用 都 希望 能 够 为 同一 个 键 绑 定 多 个 值 。 例 如 在 一 个 交易 处 理 系 。 图 35 | 拉链 法 的 内 存 使 用 情况 
统 中 , 多 笔 交 易 的 客户 属性 都 是 相同 的 。 符 号 表 不 允许 重复 键 ， 
因此 用 例 只 能 自己 管理 重复 键 。 本 节 稍 后 我 们 会 遇 到 一 个 这 样 的 示例 程序 。 我 们 可 以 考虑 在 实现 中 
允许 数据 结构 保存 重复 的 键 值 对 ， 并 在 查找 时 返回 给 定 的 键 所 对 应 的 任意 值 之 一 。 我 们 也 可 以 加 入 
一 个 方法 来 返回 给 定 的 键 对 应 的 所 有 值 。 修 改 我 们 实现 的 二 又 查找 树 和 散 列 表 来 在 数据 结构 中 保存 
重复 的 键 并 不 困难 。 修 改 红 黑 树 可 能 会 稍 有 挑战 〈 请 见 练习 3.5.9 和 练习 3.5.10 ) 。 这 种 实现 在 许多 
文献 中 都 可 以 找到 (包括 本 书 以 前 的 版 本 ) 。 st 
3.5.1.3 Java 标准 库 
Java 的 java.util.TreeMap 和 java.util.HashMap 分 别 是 基于 红 黑 树 和 拉链 法 的 散 列 表 的 符号 表 实 
现 。TreeMap 没有 直接 支持 rank() 、select() 和 我 们 的 有 序 符号 表 API 中 的 一 些 其 他 方法 ， 但 它 
支持 一 些 能 够 高 效 实现 这 些 方法 的 操作 。HashMap 和 我 们 的 LinearProbingHashST 的 实现 基本 相 








为 了 保持 前 后 一 致 ， 我 们 在 本 书 中 一 般 会 使 用 3.3 节 中 基于 红 黑 树 的 符号 表 或 是 3.4 节 中 基于 
线性 探测 法 的 符号 表 。 为 了 节省 篇 幅 并 保证 符号 表 的 用 例 和 具体 实现 的 独立 性 ， 我 们 在 调用 代码 中 
将 使 用 ST 来 代替 有 序 符号 表 RedBlackBST， 用 HashST 来 代替 有 序 性 操作 无 关 紧 要 且 拥 有 散 列 函 
数 的 LinearProbingHashST。 尽管 我 们 知道 某 些 应 用 可 能 需要 改变 或 者 扩展 这 些 算法 和 数据 结构 ， 
我 们 仍然 要 这 样 约定 。 你 应 该 使 用 哪 种 符号 表 ? 随便 ， 只 要 记得 测试 你 的 选择 是 否 能 够 提供 所 需要 
的 性 能 就 好 。 


3.5.2 ”集合 的 API 


某 些 符号 表 的 用 例 不 需要 处 理 值 , 它们 只 需要 能 够 将 键 插入 表 中 并 检测 一 个 键 在 表 中 是 否 存在 。 
因为 我 们 不 允许 重复 的 键 ， 这 些 操 作对 应 着 下 面 这 组 API ( 表 3.5.2 ) ， 它 们 只 处 理 表 中 所 有 键 的 集 
合 ， 和 相应 的 值 无 关 。 
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卖 &52 
SET<Key> 
SETO) 
add(Key key) 
delete(Key key) 


public class 


void 
void 
boolean contains(Key key) 
isEmpty() 
int size() 


boolean 


String toString() 


只 要 忽略 键 关联 的 值 或 者 使 用 一 个 简 
单 的 类 进行 封装 ， 你 就 可 以 将 任何 符号 表 
的 实现 变 成 一 个 SET 类 的 实现 ( 请 见 练习 
3.5.1 至 练习 3.5.3 ) 。 

用 并 (union) 、 交 (intersection ) 、 
补 〈(complement ) 和 其 他 数学 集合 的 操作 
扩展 SET 类 需要 的 API 更 复杂 ( 例如， 
complement 操作 需要 先 定义 所 有 可 能 的 键 
的 集合 ) , 使 用 的 算法 也 更 有 趣 , 练习 3.5.17 
会 讨论 它们 。 

基于 符号 表 ST，SET 类 分 有 序 和 无 序 
两 个 版 本 。 如 果 键 都 是 Comparable 的 ， 
我 们 可 以 为 有 序 的 键 定 义 min()、max 〇 、 
floor()、 ceiling()、 deleteMin()、 
deleteMax() 、rank()、select() 以 及 需 


要 两 个 参数 的 size() 和 get (0) 方法 来 构成 一 组 完整 的 API。 为 了 遵守 我 们 关于 符号 表 ST 的 约定 ， 


集合 数据 类 型 的 一 组 基本 API 


创建 一 个 空 的 集合 

将 键 key 加 入 集合 

从 集合 中 删除 键 key 
键 key 是 否 在 集合 之 中 
集合 是 否 为 空 
集合 中 键 的 数量 

对 象 的 字符 串 表示 


public class DeDup 
{ 
public static void main(String[] args) 
{ 
HashSET<String> set; 
set = new HashSET<String>() ; 
while (!StdIn.isEmpty()) 
长 
String key = StdIn.readString() ; 
if (!set.contains(key)) 
大 
set.add(key); 
StdOut.printlin(key); 
} 
} 
} 
} 


Dedup 过 滤器 


我 们 在 用 例 中 用 SET 表示 有 序 的 集合 ， 用 HashSET 表示 无 序 的 集合 。 


为 了 演示 SET 的 使 用 方法 ， 我 们 来 看 一 组 过 滤器 (filter ) 程序 。 它 会 从 标准 输入 读 取 一 组 字符 
. 捉 并 将 其 中 一 些 写 入 标准 输出 。 这 种 程序 源 自 于 早期 内 存 很 小 无 法 容纳 所 有 数据 的 计算 机 系统 。 它 
们 在 今天 仍 有 用 武之 地 ， 那 就 是 当 你 的 程序 需要 从 网 络 中 获取 输入 时 。 在 例子 中 我 们 使 用 tinyTale. 
txt ( 请 见 表 3.1.7 ) 作为 输入 。 为 了 保证 可 读 性 ,我 们 将 输入 中 的 换行 符 保留 到 了 输出 中 ， 不 过 代码 


并 没有 这 么 做 。 
3.5.2.1 dedup 


过 滤器 例子 的 原型 是 一 个 调用 SET 或 者 HashSET 来 去 掉 输 入 流 中 的 重复 项 的 程序 ， 一 般 叫 
做 dedup( 如 右 侧 代码 所 示 ) 。 我 们 会 保存 一 个 已 知 字符 串 的 集合 。 如 果 下 一 个 键 已 经 存在 于 集 


合 中 ， 忽 略 之 ; 如 果 不 在 ,将 它 加 入 集合 
并 打印 它 。 标 准 输出 中 键 的 顺序 和 它们 在 
标准 输入 中 的 顺序 相同 ， 只 是 去 掉 了 重复 
项 。 这 个 过 程 需要 的 空间 和 输入 中 不 同 的 
键 的 数量 成 正比 (一般 比 键 的 总 量 要 小 
得 多 ) 。 


% java DeDup < tinyTale.txt 

it was the best of times worst 
age wisdom foolishness 

epoch belief incredulity 
season light darkness 

spring hope winter despair 


3.5.2.2 ”和 白 名 单 和 黑 名 单 
过 滤器 的 男 一 个 经 典 应 用 是 用 一 

Re eg 
可 以 被 传递 到 输出 流 。 这 个 通用 程序 有 许 
多 天 然 的 应 用 ， 最 简单 的 例子 就 是 白 名 
单 。 其 中 ,文件 中 的 键 被 定义 为 好 键 。 用 
例 可 以 选择 将 所 有 不 在 白 名 单 上 的 键 传递 
到 标准 输出 并 忽略 所 有 白 名 单 上 的 键 (就 
像 第 1 章 中 我 们 的 第 一 个 程序 处 理 的 那个 
例子 一 样 ) ， 也 可 以 选择 只 将 所 有 在 白 名 
单 上 的 键 传递 到 标准 输出 并 忽略 所 有 不 在 
白 名 单 上 的 键 〈 如 右 侧 这 段 代码 所 示 ， 使 
用 HashSET 实现 的 WhiteFilter) 。 例 
如 ， 电 子 邮件 程序 可 能 会 允许 用 户 通过 这 
样 一 个 过 滤器 指定 朋友 的 邮件 地 址 并 将 所 
有 来 自 其 他 人 的 邮件 当成 垃圾 邮件 。 我 们 
根据 指定 的 列表 构造 一 个 HashSET， 然 后 
从 标准 输入 中 读 取 所 有 键 。 如 果 下 个 键 存 
在 于 集合 之 中 则 打印 它 ， 否 则 就 忽略 它 。 
黑 名 单 则 与 之 相反 ， 名 单 上 的 所 有 键 都 被 
定义 为 坏 键 。 同 样 ， 黑 名 单 过 滤器 也 有 两 
种 自然 的 应 用 。 在 电子 邮件 的 例子 中 ,用 
户 可 能 会 指定 一 些 已 知 的 垃圾 邮件 发 送 者 
的 地 址 并 要 求 程 序 放 过 所 有 不 是 由 这 些 地 
址 发 来 的 邮件 。 我 们 可 以 用 HashsET 实 
现 一 个 BlackFilter， 过 滤 条 件 只 需要 
和 WhiteFilter 相反 即 可 。 实际 应 用 中 ， 
eo te ed diel 
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public class WhiteFilter 
1 


public static void main(String[] args) 


HashSET<String> set; 

set = new HashSET<String>QO); 

In in = new In(args[0]); 

while (!in.isEmptyQO)) 
set.add(in.readString()); 

while (!StdIn.isEmpty()) 

€ 
String word = StdIn.readString(); 
if (set.contains(word)) 

StdOut.printin(word); 


白 名 单 过 滤器 


% more list.txt 
was it the of 


% java WhiteFilter list.txt < tinyTale.txt 
it was the of it was the of 
it was the of it was the of 
it was the of it was the of 
it was the of it was the of 
it was the of it was the of 


% java BlackFilter list.txt < tinyTale.txt 
best times worst times 

age wisdom age foolishness 

epoch belief epoch incredulity 

season light season darkness 

spring hope winter despair 


， 路 由 器 用 白 名 单 来 实现 防火 墙 。 它 们 使 用 的 名 单 可 能 非常 巨大 ， 输 入 无 限 并 且 响 应 时 间 要 求 非 


党 严 格 。 我 们 已 经 学 习 过 的 符号 表 实 现 能 够 很 好 地 满足 这 些 需 求 。 


3.5.3 ”字典 类 用 例 


人 
\D 


符号 表 使 用 最 简单 的 情况 就 是 用 连续 的 put 〇 操作 构造 一 张 符号 表 以 备 get() 查询 。 许 多 应 用 
但 序 都 将 符号 表 看 做 一 个 可 以 方便 地 查询 并 更 新 其 中 信息 的 动态 字典 。 以 下 列 出 了 这 类 用 例 中 的 一 些 


常见 例子 。 


口 电话 黄页 。 当 符号 表 中 的 键 是 人 名 而 值 是 电话 号 码 时 ， 这 张 符号 表 就 成 了 一 个 电话 本 。 但 和 
一 本 纸 质 印 刷 的 电话 黄页 的 一 个 重大 不 同 是 我 们 可 以 向 其 中 添加 新 的 名 字 或 者 更 新 其 中 的 
电话 号 码 。 我 们 也 可 以 将 电话 号 码 作为 键 而 将 人 名 作为 值 一 一 如 果 你 从 来 没 这 么 做 过 ， 试 着 
在 浏览 器 的 搜索 栏 中 输入 你 的 电话 (包括 区 号 ) 并 搜索 一 下 。 

口 字典 。 将 一 个 单词 和 它 的 含义 关联 起 来 就 得 到 了 “字典 ”。 几 个 世纪 以 来 人 们 都 会 在 家 里 和 
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办 公 室 里 放 一 本 纸 质 的 字典 以 查找 单词 〈( 键 ) 的 定义 和 拼写 ( 值 ) 。 现 在 ， 有 了 优秀 的 符号 
表 实 现 ， 人 们 在 电脑 上 可 以 使 用 内 置 的 拼写 检查 器 并 快速 查 到 单词 的 意义 。 

口 账户 信息 。 如 今 股民 们 都 会 在 网 上 实时 获取 股票 的 价格 信息 。 这 些 网 络 服务 会 关联 股票 名 称 
( 键 ) 和 当前 价格 ( 值 ) 以 及 丰富 的 其 他 信息 。 类 似 的 商业 应 用 非常 多 ， 比 如 金融 机 构 会 将 
名 字 或 者 账号 与 账户 信息 关联 ， 学 校 会 将 学 生 的 姓名 或 者 学 号 与 他 的 成 绩 关 联 ， 等 等 。 

口 基因 组 学 。 在 现代 基因 组 学 中 符号 的 作用 非常 重要 。 最 简单 的 例子 就 是 A、C、T 和 G 这 几 个 
字母 代表 了 活体 组 织 中 DNA 的 四 种 核 苷 酸 。 另 一 个 比较 简单 的 例子 是 密码 子 ( 核 芽 酸 三 联 体 ) 
和 和 氨基酸 的 对 应 关系 (TTA 表示 亮 氨 酸 ，TCT 表示 丝氨酸 ， 等 等 ) ， 以 及 氨基 酸 序列 和 蛋白 
质 之 间 的 对 应 关系 。 基 因 组 学 的 研究 者 每 天 都 需要 使 用 各 种 符号 表 来 组 织 这 些 信 息 。 

口 实验 数据 。 从 天 体 物 理学 到 动物 学 ， 现 代 科 学 家 被 各 种 实验 数据 包围 着 。 有 效 的 组 织 和 访问 
这 些 信 息 才 能 理解 它们 的 含义 ， 而 符号 表 正 是 一 个 关键 的 人 手 点 。 基 于 符号 表 的 高 级 数据 结 
构 和 算法 如 今 已 经 成 为 科学 研究 的 一 个 重要 部 分 。 

口 编译 器 。 符 号 表 最 早期 的 应 用 之 一 就 是 组 织 程序 代码 的 信息 。 最 初 ， 计 算 机 程序 只 是 一 串 简 
单 的 数字 ， 但 程序 员 们 很 快 发 现 使 用 符号 来 表示 操作 和 内 存 地址 ( 变量 名 ) 要 方便 得 多 。 将 
名 称 和 数字 关联 起 来 就 需要 一 张 符号 表 。 随 着 程序 的 增长 ， 符 号 表 操 作 的 性 能 逐渐 变 成 了 程 
序 开发 效率 的 瓶颈 ， 为 此 而 开发 的 数据 结构 和 算法 就 是 我 们 在 本 章 中 学 习 的 内 容 。 

口 文件 系统 。 我 们 都 在 使 用 符号 表 定 期 整理 计算 机 系统 中 的 数据 。 也 许 其 中 最 明显 的 例子 就 是 
文件 系统 了 ， 因 为 是 它 将 文件 名 ( 键 ) 和 文件 内 容 的 地 址 ( 值 ) 关联 起 来 。 音 乐 播放 器 同样 
使 用 文件 系统 关联 了 歌曲 名 ( 键 ) 和 歌曲 的 位 置 ( 值 ) 。 

口 互联 网 DNS。 域 名 系统 (DNS ) 是 互联 网 信息 组 织 的 基础 ， 它 可 以 将 人 类 能 够 理解 的 
URL ( 键 ， 如 www.princeton.edu 或 是 www.wikipedia.org ) 和 计算 机 网 络 中 路 由 器 能 够 理 
解 的 IP 地址 ( 值 ， 如 208.216.181.15 或 是 207.142.131.206 ) 关联 起 来 。 这 个 系统 被 称 为 
下 一 代 “ 电 话 黄页 ”。 有 了 它 ， 人 们 就 可 以 使 用 便于 记忆 的 域名 ， 而 机 器 也 可 以 高 效 地 处 
理 对 应 的 数字 。 为 此 ,全球 互联 网 的 路 由 器 中 每 秒 钟 进行 的 符号 表 查 找 次 数 是 个 天 文 数字 ， 
所 以 性 能 显然 非常 重要 。 每 年 ， 互 联网 上 都 会 新 增 上 百 万 台电 脑 和 其 他 设备 ， 因 此 互联 网 
路 由 器 中 的 符号 表 也 需要 能 够 动态 地 适应 它们 。 

将 以 上 几 个 典型 应 用 总 结 一 下 ， 如 表 3.5.3 所 示 。 


表 3.5.3 典型 的 字典 类 应 用 


应 用 领域 键 值 
电话 黄页 人 名 电话 号 码 
字典 单词 定义 
账户 信息 账号 余额 
基因 组 密码 子 氨基 酸 
实验 数据 数据 /时 间 实验 结果 
编译 器 变量 名 内 存 地 址 
文件 共享 - ”歌曲 名 计算 机 
DNS 网 站 IP 地 址 


尽管 已 经 涉及 了 许多 领域 ， 表 3.5.3 中 选取 的 仍然 只 是 几 个 有 代表 性 的 例子 来 说 明 符号 表 应 用 


的 广泛 程度 。 每 当 使 用 一 个 名 称 来 指 代 某 种 东西 时 ， 都 用 到 了 符号 表 。 也 许 你 只 是 用 到 了 计算 机 的 


文件 系统 或 是 互联 网 ， 但 在 某 个 角落 肯 
定 有 一 张 符号 表 在 默默 工作 。 

作为 一 个 具体 的 例子 ， 我们 来 看 
看 一 个 从 文件 或 者 网 页 中 提取 由 过 号 分 
隔 的 信息 ( .csv 文件 格式 ) 的 程序 。 这 
种 格式 存储 的 列表 的 信息 不 需要 任何 专 
用 的 程序 就 可 以 读 取 : 数据 都 是 文本 ， 
每 行 中 各 项 均 由 逗号 隔 开 。 在 本 书 的 
网 站 上 你 会 找到 很 多 .csv 文件， 都 和 
我 们 刚才 提 到 过 的 应 用 领域 相关 ， 包 
括 amino.csv( 密码 子 和 氨基 酸 的 编码 
关系 ) 、DJIA.csv( 道琼斯 工业 平均 指 
数 历 史上 每 天 的 开盘 价 、 成 交 量 和 收盘 
价 ) 、ip.csv (DNS 数据 库 中 的 一 部 分 
条 目 ) 和 upc.csv (广泛 用 于 识别 商品 的 
Uniform Product Code 条 形 码 ) ， 如 右 
侧 代 码 框 所 示 。 电 子 表格 等 数据 处 理应 
用 程序 都 能 读 写 .csv 文件 ， 我 们 的 例子 
程序 说 明 你 也 能 够 编写 Java 程序 来 根据 
需要 处 理 这 些 数 据 。 

下 页 的 LookupCSV 根据 命令 行 指 
定 的 文件 中 的 数据 构建 了 一 组 键 值 对 ， 
并 会 打印 出 由 标准 输入 读 取 的 键 对 应 的 
值 。 命 令 行 参数 包括 一 个 文件 名 和 两 个 
整数 ,分 别 用 来 指定 键 和 值 所 在 的 位 置 。 

这 个 例子 的 目的 在 于 展示 符号 表 
的 作用 和 灵活 性 。 哪 个 网 站 的 卫 地 址 
是 128.112.136.35 ? www.cs.princeton. 
edu; 哪 种 氨基 酸 对 应 着 密码 子 TCA ? 
丝氨酸 ; DJIA 在 1929 年 10 月 29 号 的 
价格 是 多 少 ?” 252.38; 哪 种 商品 的 条 
形 码 是 0002100001086 ? 卡 夫 芝士 粉 
(Kraft Parmesan ) 。 有 了 LookupCSV 
和 合适 的 .csv 文件 ， 可 以 轻易 查 到 这 类 
问题 的 答案 。 

在 处 理 交 互 性 的 查询 时 ， 性 能 一 般 
都 不 是 问题 ( 因为 你 的 计算 机 在 你 打字 
的 工夫 就 能 检索 上 百 万 条 信息 ) ， 所 以 
在 使 用 LookupCSV 时 符号 表 的 高 效 性 并 


3.5 应 用 咯 317 


% more amino,.csv 
TIT,Phe,F,Phenylalanine 
TTC, Phe,F,Phenylalanine 
TTA, Leu,L,Leucine 
TTG,Leu,L 上 ,Leucine 
TCT, Ser,S, Serine 
TCC, Ser,S, Serine 


GAA,Gly,G,Glutamic Acid 
GAG,Gly,G,Glutamic Acid 
GCT,Gly,G,Glycine 
GGC,Gly,G,Glycine 
GGA,Gly,G,Glycine 
GGG,Gly,G,Glycine 


% more DJIA.csv 


20-0ct-87,1738.74,608099968,1841.01 
19-Oct-87,2164.16,604300032,1738.74 
16-0ct-87,2355.09,338500000,2246.73 
15-0Oct-87,2412.70,263200000,2355.09 


30-0Oct-29,230.98,10730000,258.47 
29-0ct-29,252.38,16410000,230.07 
28-Oct-29,295.18,9210000,260.64 
25-0ct-29,299.47,5920000,301.22 


% more ip.csv 


www.ebay.com,66.135.192.87 
www.princeton.edu,128.112.128.15 
www.cs.princeton.edu,128.112.136.35 
ww.harvard.edu,128.103.60.24 
ww.yale.edu,130.132.51.8 
Www.cnn.com,64.236.16.20 
www.google.com,216.239.41.99 
www.nytimes.com,199.239.136.200 
www.apple.com,17.112 .152.32 
www.slashdot.org,66.35.250.151 
www.espn.com,199.181.135.201 
www.weather .com,63.111.66.11 
www.yahoo.com,216.109.118.65 


% more UPC.csv 


0002058102040,,"1 1/4"" STANDARD STORM DOOR" 
0002058102057,,"1 1/4"" STANDARD STORM DOOR" 
0002058102125,,"DELUXE STORM DOOR UNIT" 
0002082012728, "100/ per box","12 gauge shells" 
0002083110812,"Classical CD","'Bits and Pieces’'" 
002083142882,CD,"Garth Brooks - Ropin' The Wind" 
0002094000003,LB, "PATE PARISIEN" 
0002098000009,LB,"PATE TRUFFLE COGNAC-M&H 8Z RW" 
0002100001086, "16 oz","Kraft Parmesan" 
0002100002090, "15 pieces","Wrigley's Gum" 
0002100002434, "One pint","Trader Joe's milk" 


典型 的 含有 由 逗号 分 隔 的 值 的 文件 (.csv) 


不 明显 。 但 是 当 程 序 需要 进行 (大量 的 ) 查找 时 ,符号 表 的 性 能 就 很 重要 了 。 例如， 互联 网 上 的 一 
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台 路 由 器 每 秒 钟 可 能 需要 查找 上 百 万 个 IP 地 址 。 在 本 书 中 ,我 们 已 经 通过 FrequencyCounter 看 
到 了 高 性 能 的 必要 性 ， 在 本 节 中 你 还 会 看 到 其 他 几 个 例子 。 
练习 里 有 几 个 更 加 复杂 的 处 理 .csv 文件 的 测试 用 例 。 例 如 ,我 们 可 以 将 一 个 字典 动态 化 ， 允 
493| 许 它 接受 从 标准 输入 中 得 到 的 指令 来 改变 一 个 键 的 值 ， 或 是 为 它 添加 范围 查找 的 功能 ， 或 者 我 们 
494| 可 以 为 同一 个 文件 构造 多 个 字典 。 





字典 的 查找 


public class LookupCSV 
{ 
public static void main(String[] args) 
{ 
In in = new In(args[0]); 
int keyField = Integer.parseInt(args[1]); 
int valField = Integer.parseInt(args[2]); 
ST<String, String> st = new ST<String, String>Q); 
while (in.hasNextLine()) 
{ 





String line = in.readLineQO; 
String[] tokens = line.splitC “,” ); 
String key = tokens[keyField]; 
String val = tokens[valField]; 
st.put(key, val); 


} 
while (!StdIn.isEmpty()) 


{ 
String query = StdIn.readString() ; 
if (st.contains(query)) 
StdOut.printlin(st.get(query)); 
2 


} 
} 


这 段 数据 驱动 的 符号 表 用 例会 从 一 个 文件 中 读 取 键 值 对 并 根据 标准 输入 中 的 键 打 印 出 相应 的 值 。 其 
中 键 和 值 都 是 字符 串 ， 分 隔 符 由 命令 行 参 数 指定 。 


% java LookupCSV ip.csv 1 0 % java LookupCSV amino.csv 0 3 
128.1412.136.35 TCC 

www.cs.princeton.edu Serine 

% java LookupCSV DJIA.csv 0 3 % java LookupCSV UPC.csv 0 2 
29-0ct-29 0002100001086 

230.07 Kraft Parmesan 





3.5.4 索引 类 用 例 

字典 的 主要 特点 是 每 个 键 都 有 一 个 与 之 关联 的 值 ， 因 此 基于 关联 型 抽象 数组 来 为 一 个 键 指定 一 
个 值 的 符号 表 数 据 类 型 正 合适 。 每 个 账号 都 唯一 地 表示 一 个 客户 ,每 个 条 码 都 唯一 地 表示 一 种 商品 ， 
等 等 。 但 一 般 说 来 , 一 个 给 定 的 键 当然 有 可 能 和 多 个 值 相 关联 。 例 如 , 在 我 们 的 amino.csv 的 例子 中 ， 
每 个 密码 子 都 对 应 着 一 种 氨基 酸 , 但 一 种 氨基 酸 有 可 能 对 应 着 多 个 密码 子 。 如 下 页 的 aminoLtxt 所 示 ， 





文件 的 每 一 行 都 包含 一 个 氨基 酸 和 它 对 应 的 多 个 密码 子 。 
我 们 使 用 索引 来 描述 一 个 键 和 多 个 值 相关 联 的 符号 
表 ， 下 面 是 更 多 的 例子 。 

口 商业 交易 。 公 司 使 用 客户 账户 来 跟踪 一 天 内 所 有 交 
易 的 一 种 方法 是 为 当日 所 有 交易 建立 一 个 索引 ， 其 
中 键 是 客户 的 账号 , 值 是 和 该 账号 有 关 的 所 有 交易 。 

口 网 络 搜索 。 当 你 输入 一 个 关键 字 并 得 到 一 系列 含 
有 这 个 关键 字 的 网 站 时 ， 你 就 是 在 使 用 网 络 搜索 
引擎 创 建 的 索引 。 每 个 键 (查询 ) 都 关联 着 一 个 
值 (一 组 网 页 ) ， 当 然 实际 情况 会 更 加 复杂 ， 因 
为 我 们 经 常会 指定 多 个 关键 字 。 

口 电影 和 演员 。 本 书 网 站 上 的 movies.txt 来 自 于 
IMDB (互联 网 电影 数据 库 ) 。 每 一 行 都 含有 一 部 
电影 的 名 称 ( 键 ) ， 随 后 是 在 其 中 出 演 的 演员 列 
表 ( 值 ) ， 用 斜 杠 分 隔 ， 如 图 3.5.2 所 示 。 

将 每 个 键 关联 的 所 有 值 都 放 入 一 个 数据 结构 中 ( 比如 


3.5 应 用 号 319 


aminoI .txt 


Alanine,AAT,AAC,GCT,GCC, GCA, GCG 
Arginine,CGT,CGC,CGA, CGG,AGA,AGG 
Aspartic Acid,GAT,GAC 
Cysteine,TGT,TGC 
Glutamic Acid,GAA,GAG 
Glutamine, CAA, CAG 
Glycine,GGCT,GGC, GGA, GGG 
Histidine,CAT,CAC 
Isoleucine,ATT,ATC,ATA 
Leucine,TTA,TTG, CTT,CTC, CTA, CTG 
Lysine,AAA,AAG 

Methionine,ATG 
Phenylalanine,TTT,TTC 
Proline,CCT,CCC, CCA, CCG 
Serine,TCT,TCA,TCG, AGT,AGC 
Stop, TAA, TAG, TGA 
Threonine,ACT,ACC,ACA,ACG 
Tyrosine,TAT,TAC 

Tryptophan,TGG 
Valine,GTT,GTC,GTA, GTG 


多 个 值 
一 个 小 型 索引 文件 (20 行 ) 


一 个 Queue ) 并 用 它 作 为 值 就 可 以 轻松 构造 一 个 索引 。 根 据 这 一 点 来 扩展 LookupCSV 很 简单 ， 我 们 
将 它 留 作 一 道 练习 ( 请 见 练习 3.5.12 ) 。 这 里 我 们 看 一 下 LookupIndex， 它 能 够 从 一 个 文件 ， 例 如 
aminol.txt 或 movies.txt ( 分 隔 符 不 一 定 和 .csv 文件 一 样 必须 是 逗号 ， 但 需要 能 够 从 命令 行 指定 ) ， 
构造 一 个 索引 。 构 造 完成 后 LookupIndex 能 够 接受 查询 并 打印 出 键 对 应 的 所 有 值 。 更 有 意思 的 是 
LookupIndex 也 会 为 每 个 文件 构造 一 个 反 向 索引 , 也 就 是 将 键 和 值 的 角色 互 换 。 在 氨基 酸 的 例子 中 ， 
它 的 功能 相当 于 LookupCSV( 找到 给 定 密码 子 所 对 应 的 氨基 酸 ) 。 在 电影 和 演员 的 例子 中 ， 它 使 我 
们 能 够 找到 一 个 演员 出 演 过 的 所 有 电影 。 这 项 信息 隐藏 于 数据 当中 ， 但 没有 符号 表 我 们 就 很 难 获取 
它 。 请 仔细 研究 这 个 例子 ， 因 为 它 深刻 地 揭示 了 符号 表 的 本 质 特征 。 
表 3.5.4 总 结 了 典型 的 索引 类 应 用 的 符号 表 中 键 值 的 对 应 情况 。 


表 3.5.4 典型 的 索引 类 应 用 





应 用 领域 键 值 应 用 领域 键 值 

基因 组 学 氨基 酸 一 系列 密码 子 网 络 搜索 关键 字 一 系列 网 页 

商业 交易 账号 一 系列 交易 IMDB 电影 一 系列 演员 
movies.txt 


Tin Men (1987)/DeBoy, David/Blumenfeld, Alan/... 2 
Tirez sur le pianiste (1960)/Heymann, Claude/... 

Titanic (1997)/Mazin, Stan/...DiCaprio, Leonardo/... 
Titus (1999)/Weisskopf, Hermann/Rhys, Matthew/... 

To Be or Not to Be (1942)/Verebes, Ernod (I)/... 

To Be or Not to Be (1983)/.../Brooks, Mel (1)/... 

To Catch a Thief (1955)/Paris, Manuel/... 

To Die For (1995)/Smith, Kurtwood/.../Kidman, Nicole/... 


3.5.2 一 个 巨型 索引 文件 (250 000 多 行 ) 的 一 小 部 分 497 
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反 向 索引 
反 向 索引 一 般 是 指 用 值 来 查找 键 的 操作 ， 比 如 我 们 有 大 量 的 数据 并 且 和 希望 知道 某 个 键 都 在 哪些 
地 方 出 现 过 。 这 是 另 一 种 符号 表 的 典型 用 例 ， 它 会 进行 一 系列 get() 和 put() 的 混合 调用 。 和 以 
前 一 样 ， 我 们 将 每 个 键 和 一 个 SET 类 型 的 值 关联 起 来 ， 这 个 值 中 包含 了 该 键 出 现 的 所 有 位 置 。 位 置 
信息 的 性 质 和 用 途 取 决 于 应 用 场景 : 在 一 本 书 中 ， 位 置 可 能 是 书 的 页 码 ; 在 一 段 程序 中 ， 位 置 可 能 
是 代码 的 行 号 ; 在 基因 组 中 ,位 置 可 能 是 一 段 基因 序列 的 某 个 位 点 ， 等 等 。 
口 互联 网 电影 数据 库 (IMDB ) 。 在 上 文 的 例子 中 ， 输 入 是 将 每 部 电影 和 它 的 演员 关联 起 来 的 
一 个 索引 。 它 的 反 向 索引 则 会 将 每 个 演员 和 他 出 演 过 的 所 有 电影 相关 联 。 
口 图 书 索引 。 每 本 教科 书 都 会 有 一 个 索引 。 你 能 在 其 中 查找 到 一 个 术语 和 它 出 现 过 的 所 有 页 码 。 
创建 优秀 的 索引 当然 需要 作者 的 努力 来 去 掉 常见 和 无 关 的 词语 ,但 文档 处 理 系 统 能 够 使 用 符 
号 表 将 整个 过 程 自动 化 。 一 种 有 趣 的 特殊 情况 叫做 对 照 索引 (concordance) ， 它 会 给 出 每 
个 单词 在 书 中 出 现 的 所 有 位 置 (请 见 练 习 3.5.20 ) 。 
口 编译 器 。 在 一 个 使 用 了 许多 符号 的 庞大 程序 中 ， 能 够 知道 每 个 名 称 的 使 用 位 置 很 有 帮助 。 在 
以 前 , 一 张 打 印 的 以 追踪 各 个 符号 在 程序 中 使 用 位 置 的 符号 表 曾 经 是 程序 员 最 重要 的 工具 之 
一 。 在 现代 计算 机 系统 中 ， 符 号 表 是 程序 员 用 来 管理 各 种 名 称 的 工具 软件 的 基础 。 
口 文件 搜索 。 现 代 操 作 系 统 都 提供 了 根据 关键 字 搜 索 文 件 的 功能 。 对 于 这 个 索引 ， 键 就 是 关键 
字 ， 值 则 是 含有 该 关键 字 的 所 有 文件 的 集合 。 
口 基因 组 学 。 基 因 组 学 研究 中 的 一 个 典型 (或许 有 些 过 于 简化 了 ) 情况 是 科学 家 希望 
知道 一 个 给 定 的 核 苷 酸 序列 在 一 个 基因 或 者 一 组 基因 中 的 位 置 。 某 些 特 定 序列 或 者 
近似 序列 的 存在 也 许 都 有 重大 的 意义 。 这 种 研究 首先 就 需要 一 个 序列 和 基因 的 对 
照 索 引 ， 但 也 需要 一 些 修改 ， 因 为 基因 是 无 法 像 句 子 一 样 被 切 分 为 单词 的 (请 见 练 
HIS) 
常见 反 向 索引 用 例 的 符号 表 的 键 值 对 应 情况 如 表 3.5.5 所 示 。 


表 3.5.5 ”典型 的 反 向 索引 


应 用 领域 键 值 
IMDB 演员 一 系列 电影 
图 书 术语 一 系列 页 码 
编译 器 标识 语 一 系列 使 用 位 置 
文件 搜索 关键 字 文件 集合 

498 基因 组 学 基因 片段 一 系列 位 置 


索引 《以 及 反 向 索引 ) 的 查找 


public class LookupIndex 


并 
public static void main(String[] args) 
{ 
In in = new In(args[0]);  // (索引 数据 库 ) 
String sp = args[1]; // (分 隔 符 ) 


ST<String, Queue<String>> st = new 9ST<String，Queue<String>>() ; 
ST<String, Queue<String>> ts = new ST<String, Queue<String>>O); 
while (in.hasNextLine()) 
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String[] a = in.readLine().split(sp); 
String key = a[0]; 

for (Cint i = 1; i < a.length; i++) 

{ 


String val = a[i]; % java LookupIndex aminoI.txt "," 


if (!st.contains (key)) Serine 
st.put(key, new Queue<String>()); eT 
if (!ts.contains(val)) TCA 
ts.put(val, new Queue<String>()); TCG 
st.get(key).enqueue(val); ACT 
ts.get(val) .enqueue(Ckey) ; AGC 
} TCG ， 
} Serine 
while (!StdIn.isEmpty()) % java LookupIndex movies.txt "/" 
{ Bacon, Kevin 


String query = StdIn.readLine(); 
if (st.contains(query)) 


Mystic River (2003) 
Friday the 13th (1980) 


Flatliners .(1990) 


for (String s : st.get(query)) 
9 A Few Good Men, A (1992) 


StdOut.println(“ 和 

if (ts.contains(query)) 
for (String s : ts.get(query)) 
Stdout .println(” “+ s); 


Tin Men (1987) 
Blumenfeld, Alan 
DeBoy, David 
} 4 
} 
} 


这 上段 数据 驱动 的 符号 表 用 例会 从 一 个 文件 中 读 取 键 值 对 并 根据 标准 输入 中 的 键 打 印 出 相应 的 值 。 其 
中 键 为 字符 串 ， 值 为 一 列 字符 串 ， 分 隔 符 由 命令 行 参 数 指定 。 





下 面 的 FileIndex 从 命令 行 接受 多 个 文件 名 并 使 用 一 张 符号 表 来 构造 一 个 反 向 索引 ， 它 能 够 
将 任意 文件 中 的 任意 一 个 单词 和 一 个 出 现 过 这 个 单词 的 所 有 文件 的 文件 名 构成 的 SET 对 象 关 联 起 
来 。 在 接受 标准 输入 的 查询 时 ， 输 出 单词 对 应 的 文件 列表 。 这 个 过 程 与 工具 软件 在 网 络 上 或 是 在 你 
的 计算 机 上 查找 信息 的 过 程 类 似 ， 即 根据 输入 的 关键 字 得 到 所 有 该 关键 字 出 现 过 的 位 置 。 这 类 工具 
的 开发 者 一 般 会 在 下 面 几 点 上 下 工夫 来 改进 这 个 过 程 : 

口 查询 形式 ; 

口 被 索引 的 文件 或 网 页 的 集合 ; 

口 文件 或 网 页 在 结果 中 的 排列 顺序 。 

例如 ， 你 肯定 已 经 习惯 了 在 网 络 搜索 引擎 〈 它们 的 基础 都 是 将 网 络 上 的 大 部 分 页 面 进行 索引 ) 
的 查询 中 输入 多 个 关键 字 进 行 查找 ， 并 得 到 一 组 按照 相关 性 或 者 重要 性 ( 对 于 你 或 是 对 于 广告 商 而 
言 ) 由 高 到 低 排序 的 结果 。 本 节 最 后 的 练习 中 讨论 了 这 里 的 一 些 改进 。 我 们 会 在 以 后 学 习 和 网 络 搜 
索 有 关 的 各 种 算法 ， 但 符号 表 仍 然 会 是 整个 过 程 的 核心 工具 。 

和 LookupIndex 一 样 ， 你 也 应 该 从 本 书 的 网 站 上 下 载 FileIndex 并 用 它 来 为 你 的 电脑 上 的 一 
些 文件 或 是 你 感 兴趣 的 一 些 网 站 建立 索引 ， 从 而 更 好 地 理解 符号 表 的 使 用 。 你 将 会 发 现 即 使 是 根据 
巨型 文件 构造 庞大 的 索引 ， 这 个 工具 的 耗 时 也 不 多 ， 因 为 每 个 putQ 操作 和 get() 请 求 的 处 理 都 
非常 快 。 确 保 巨 型 的 动态 索引 实现 即时 响应 是 算法 技术 的 重要 胜利 之 一 。 
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文件 索引 


import java.io.File; 
public class FileIndex 
{ 
public static void main(String[] args) 
4 
ST<String, SET<File>> st = new ST<String, SET<File>>O); 
for (String filename : args) 


File file = new File(filename); 
In in = new In(file); 
while (!in.isEmpty()) 
String word = in.readString(); 
if (!st,.contains(word)) st.put(word, new SETSile>()); 
SET<File> set = st.get(word); 
set.add(file); 
3 


} 
while (!StdIn.isEmpty()) 
4 
String query = StdIn.readStringO); 
if (st.contains(query)) 
for (File file : st.get(query)) 
Stdout.println(” “+ file.getName()); 


} 


这 段 符号 表 用 例 能 够 为 一 组 文件 创建 索引 。 我 们 将 每 个 文件 中 的 每 个 单词 都 记录 在 符号 表 中 并 维护 
一 个 SET 对 象 来 保存 出 现 过 该 单词 的 文件 。In 对 象 接受 的 名 称 也 可 以 是 网 页 ， 因 此 这 段 代码 也 可 以 用 来 
为 一 组 网 页 创建 反 向 索引 。 


% java FileIndex ex*.txt 


% more ex1.txt age 

it was the best of times ex3.txt 
ex4.txt 

% more ex2.txt best 

it was the worst of times EX 

% more ex3.txt wae 

it was the age of wisdom exl. txt 
ex2.,txt 

% more ex4.txt ex3.txt 

it was the age of foolishness ex4.txt 








3.5.5 “” 稀 朴 向 量 

下 面 这 个 例子 展示 的 是 符号 表 在 科学 和 数学 计算 领域 所 起 到 的 重要 作用 。 我 们 会 考察 一 种 重要 
而 常见 的 计算 ， 它 在 典型 的 实际 应 用 中 常常 是 性 能 的 瓶 英 ， 然 后 我 们 会 演示 符号 表 如 何 解决 这 个 瓶 
颈 并 能 够 处 理 规模 大 得 多 的 问题 。 实 际 上 ， 这 个 计算 正 是 S. Brin 和 LL. Page 发 明 的 PageRank 算法 
的 核心 ， 这 个 算法 在 2000 年 左右 造就 了 Google ( 它 同时 也 是 一 个 著名 的 数学 抽象 模型 ， 在 很 多 其 


a[]D x[] b[] 
O30 @ 5 9 ,05 .036 
0 .36 .36 .18| | .04 .297 
0 0.90 01:36| = 333 
9 .045 


.47 0.47 0 0| |.19 


图 3.5.3 ”和 矩阵 和 向 量 的 乘法 
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他 场景 中 都 会 用 到 ) 。 

我 们 要 考察 的 简单 计算 就 是 矩阵 和 向 量 的 
乘法 《如 图 3.5.3 所 示 ) : 给 定 一 个 矩阵 和 一 个 
向 量 并 计算 结果 向 量 ， 其 中 第 i 项 的 值 为 矩阵 
的 第 i 行 和 给 定 的 向 量 的 点 磁 。 为 了 简化 问题 ， 
我 们 只 考虑 Y 行 YX 列 的 方 阵 ， 向 量 的 大 小 也 为 
Ne。 在 Java 中, 用 代码 实现 这 种 操作 非常 简单 ， 
但 所 需 的 时 间 和 N 成 正比 ， 因 为 N 维 结果 向 量 
中 的 每 一 项 都 需要 计算 入 次 乘法 。 因 为 需要 存 


储 整个 矩阵 ， 计 算 所 需 的 空间 也 和 N 成 正比 。 实 现代 码 如 下 所 示 。 
在 实际 应 用 中 ,YX 往往 非常 巨大 。 例 如 ， 在 刚才 提 到 的 Google 的 应 用 中 ，N 等 于 互联 网 中 所 


有 网 页 的 总 数 。 在 PageRank 算法 发 明 的 时 
候 ， 这 个 数字 大 概 在 百 亿 到 千 亿 之 间 ， 但 之 
后 一 直 在 暴 增 。 因 此 ，F 的 值 应 该 远 远大 于 
10”。 没 人 能 够 负担 起 这 么 多 内 存 和 时 间 来 进 
行 这 种 计算 ， 所 以 我 们 需要 更 好 的 算法 。 

幸好 ， 这 里 的 矩阵 常常 是 稀 朴 的 ， 即 其 
中 大 多 数 项 都 是 0。 实 际 上 ， 在 Google 的 应 
用 中 ， 每 行 中 的 非 零 项 的 数量 是 一 个 较 小 的 
常数 : 每 个 网 页 中 指向 其 他 页 面 的 链接 其 实 
都 很 少 ( 相 比 互联 网 中 所 有 网 页 的 总 数 而 言 )。 
因此 ， 我 们 可 以 将 这 个 矩阵 表示 为 由 稀 玖 向 
量 组 成 的 一 个 数组 ， 使 用 HashsT 的 稀疏 向 量 
实现 如 下 面 的 SparseVector 所 示 。 


能 够 完成 点 乘 的 稀疏 向 量 


double[][] a = new double[N] [IN] ; 
double[] x = new double[N] ; 
double[] b = new double[N] ; 


// 初始 化 a[] [] 和 x[] 


for (int i = 0; i < Ni i++) 
{ 
sum = 0.0; 
for (Cint j = 0; j < N; j++) 
sum += a[i] [j]*x[j]; 
b[i] = sum; 


和 矩阵 和 向 量 相 乘 的 标准 实现 





public class SparseVector 


private HashST<Integer, Double> st; 
public SparseVector() 


{ st = new HashST<Integer，Double>() ; 


public int size() 

{ return st.size(); } 

public void put(int i, double x) 
{ ‘st put(i, x); 3 

public double get(int i) 

‘ 


if (!st.contains(i)) return 0.0; 
else return st.get(i); 


} 
public double dot(double[] that) 
{ 


double sum = 0.0; 
for (Cint 1 : st.keysO) 


sum += that[i]*this.get(i); 


return sum; 


3 
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这 个 符号 表 的 用 例 实现 了 稀 朴 向 量 的 主要 功能 并 高 效 完成 了 点 乘 操 作 。 我 们 将 一 个 向 量 中 的 每 一 项 
和 另 一 个 向 量 中 对 应 项 相 乘 并 将 所 有 结果 相 加 ， 所 需 的 乘法 操作 数量 等 于 稀 玻 向 量 中 的 非 零 项 的 数目 。 








稀 玻 矩阵 的 表示 如 图 3.5.4 所 示 。 
doub1le 让 对 象 的 数组 SparseVector 对 象 的 数组 


0 L 2 3 4 
020 0. 19000000 









键 值 




















0 1 2 3 4 OO 
omy/ /L001o0.0T .36T .361 .18] 2 Ee [3T .36] [4] .18]| 
1 0 1 2 3 4 1 
2 [0.010.0[0.0| .9010.0| 2 
3 3 
和 0 1 2 3 4 4 

[ .9010.010.0[0.01 0.0 

0 1 2 3 4 

| .451 0.0| .45| 0.0] 0.0 

ar41T21 





图 3.5.4 稀 玻 垂 阵 的 表示 


这 里 我 们 不 再 使 用 a[i] [j] 来 访问 和 矩阵 中 第 i 行 第 j 列 的 元 素 ， 而 是 使 用 a[i] .put(j，val1) 
来 表示 和 矩阵 中 的 值 并 使 用 a[i] .get(j) 来 获取 它 。 从 下 面 这 段 代码 可 以 看 到 ， 用 这 种 方式 实现 的 
和 矩阵 和 向 量 的 乘法 比 数 组 表示 法 的 实现 更 简单 ( 也 能 更 清晰 地 描述 乘法 的 过 程 ) 。 更 重要 的 是 ， 它 
所 需 的 时 间 仅 和 X 加 上 和 矩阵 中 的 非 零 元 素 的 数量 成 正比 。 

虽然 对 于 较 小 或 是 不 那么 稀 朴 的 矩阵， 使 用 符号 表 的 代价 可 能 会 非常 高 昂 ， 但 你 应 该 理解 它 对 
于 巨型 稀疏 矩阵 的 意义 。 为 了 更 好 地 说 明 这 一 点 ， 设 想 一 个 超大 的 应 用 (就 像 Brin 和 Page 面 对 的 
问题 一 样 ) ,WN 可 能 超过 100 亿 或 者 1000 亿 而 平均 每 行 中 的 非 零 元 素 小 于 10。 对 于 这 种 应 用 ， 使 
用 符号 表 能 够 将 矩阵 和 向 量 乘法 的 速度 提升 10 亿 倍 甚至 更 多 。 这 种 应 用 虽然 简单 但 非常 重要 ， 不 
愿意 挖掘 其 中 省 时 省 力 的 潜力 的 程序 员 解 决 实际 问题 能 力 的 潜力 也 必然 是 有 限 的 ， 能 够 将 运行 速度 
提升 几 十 亿 倍 的 程序 员 勇 于 面 对 看 似 无 法 解决 的 问题 。 

构造 Google 所 使 用 的 矩阵 是 一 种 图 的 应 用 ( 当然 也 是 符号 表 的 一 种 应 用 ) ， 尽 管 是 一 个 巨型 
的 稀疏 矩阵 。 有 了 这 个 矩阵 ，PageRank 算法 的 计算 就 变 成 了 简单 的 矩阵 和 向 量 之 间 的 乘法 运算 ， 不 
断 用 结果 向 量 取代 计算 所 使 用 的 向 量 ， 重 复 这 个 迭代 过 程 直到 收敛 〈 这 一 点 是 由 概率 论 的 基础 定理 
所 保证 的 ) 。 因 此 ， 使 用 一 个 类 似 于 SparseVector 的 类 能 够 将 这 种 应 用 程序 所 需 的 空间 和 时 间 改 
进 几 百 或 者 几 千 亿 倍 ， 甚 至 更 多 。 ; 

在 许多 科学 计算 中 类 似 的 改进 都 是 可 能 的 ， 因 此 稀 下 向 量 和 和 矩 阵 的 应 用 十 分 广泛 ， 并 且 一 般 都 
会 被 集成 到 科学 计算 专用 的 库 中 。 在 处 理 庞 大 的 向 量 或 矩阵 的 时 候 ， 你 最 好 用 一 些 简单 的 性 能 测试 
来 保证 不 会 错过 类 似 的 改进 机 会 。 男 外 ， 大 多 数 编程 语言 都 拥有 处 理 原 始 数 据 类 型 数组 的 能 力 ， 因 
此 像 例子 中 那样 用 数组 来 保存 密集 的 向 量 也 许 能 提供 更 好 的 性 能 。 对 于 这 些 应 用 ， 有 必要 深入 了 解 
它们 的 运行 瓶颈 从 而 选择 合适 的 数据 类 型 实现 。 
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符号 表 之 所 以 是 算法 技术 为 现代 计算 机 基础 设施 建 
设 的 一 大 重要 贡献 ， 是 因为 在 很 多 实际 应 用 中 它 都 能 够 SparseVector[] ai 
节省 大 量 的 运行 成 本 ， 使 得 各 个 领域 内 许多 原来 完全 无 a = new SparseVector[N]; 
2 ER a double[] x = new double[N]; 
法 想象 的 问题 的 解决 成 为 可 能 。 科 学 或 是 工程 领域 能 够 double[] b = new double[N]; 
将 运行 效率 提升 一 千 亿 倍 的 发 明 极 少 我 们 已 经 在 几 
个 例子 中 看 到 ， 符 号 表 做 到 了 ， 并 且 这 些 改 进 的 影响 非 // 初始 化 ar] 和 x[] 
常 深远 。 但 我 们 学 习 过 的 数据 结构 和 算法 的 演化 并 没有 SE . 3 
for (Cint 1 = 0; i < N; i++) 
结束 : 它们 才 出 现 了 几 十 年 ， 我 们 也 并 没有 完全 了 解 它 b[i] = a[i].dot(Cx); 
们 的 性 质 。 鉴 于 它们 的 重要 性 ， 符 号 表 的 各 种 实现 仍然 
是 全 球 学 者 的 研究 热点 。 随 着 它 的 应 用 范围 不 断 扩 展 ， 稀 玻 矩阵 和 向 量 的 乘法 1/ 
我 们 会 在 更 多 领域 看 到 它 的 新 发 展 。 0 


图 答疑 


问 SET 能够 包含 nu11 吗 ? 

答 ”不行 。 和 符号 表 一 样 ， 键 必须 是 非 空 的 对 象 。 

问 SET 可 以 是 nu11 吗 ? 

答 不行。 一 个 SET 集合 可 以 是 空 的 (不 包含 任何 对 象 ) ,但 不 能 为 nu11。 和 Java 的 其 他 数据 类 型 一 样 ， 
一 个 SET 类 型 的 变量 的 值 可 以 是 nul11， 但 这 仅仅 意味 着 它 没 有 指向 任何 SET 对 象 。 对 SET 使 用 new 
的 结果 必然 是 一 个 非 空 的 对 象 。 

问 ” 如 果 能 够 将 所 有 数据 都 存储 在 内 存 中 ， 那 就 没有 必要 使 用 过 滤器 了 ， 对 吗 ? 

答 ” 是 的 。 过 滤器 最 大 的 用 处 在 于 处 理 输 入 数据 量 未 知 的 情况 。 在 其 他 情况 下 ， 它 可 能 会 是 一 种 有 用 的 
思维 方式 ， 但 也 不 是 万 能 的 。 

问 ”我 在 一 张 电子 表格 中 保存 了 一 些 数据 。 我 需要 开发 一 个 类 似 于 LookupCSV 的 程序 查找 这 些 数 据 吗 ? 

答 ” 你 的 电子 表格 程序 应 该 能 够 将 它们 导出 为 .csv 的 文件 ， 这 样 你 就 可 以 直接 使 用 LookupCSV 了 。 

问 FileIndex 程序 有 什么 用 ”操作 系统 不 能 解决 这 个 问题 吗 ? 

答 ”如果 操作 系统 能 够 满足 你 的 需求 ， 当 然 应 该 直接 使 用 它 的 解决 方案 。 和 我 们 的 许多 例子 程序 一 样 ， 
FileIndex 也 是 为 了 向 你 展示 这 些 应 用 程序 的 基本 原理 并 为 你 提供 其 他 的 可 能 性 。 

问 为 什么 SparseVector 的 dot0) 方法 不 接受 一 个 Sparsevector 对 象 作 为 参数 并 返回 一 个 
SparseVector 对 象 ? 

答 ”这 也 是 一 个 不 错 的 设计 , 它 所 需 的 代码 比 我 们 的 设计 稍稍 复杂 一 些 , 因此 也 是 一 道 不 错 的 编程 练习 (请 
见 练习 3.5.16 ) 。 对 于 普通 矩阵 的 处 理 ， 我 们 也 许 还 应 该 再 增加 一 个 SparseMatrix 数据 类 型 。 506 








3.5.1 分 别 使 用 ST 和 HashST 来 实现 SET 和 HashSET ( 为 键 关联 虚拟 值 并 忽略 它们 ) 。 

3.5.2 ”删除 SequentialSearchST 中 和 值 相 关 的 所 有 代码 来 实现 SequentialSearchSET。 

3.5.3 ”删除 BinarySearchST 中 和 值 相关 的 所 有 代码 来 实现 BinarySearchSET。 

3.5.4 分 别 为 int 和 double 两 种 原始 数据 类 型 的 键 实现 HashSTint 类 和 HashsSTdouble 类 (将 
LinearProbingHashST 中 的 泛 型 改 为 原始 数据 类 型 ) 。 
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3.5.5 分别 为 int 和 double 两 种 原始 数据 类 型 的 键 实现 STint 类 和 STdouble 类 (将 RedB1ackBST 中 
的 泛 型 改 为 原始 数据 类 型 ) 。 用 经 过 修改 的 SparseVector 作为 用 例 测试 你 的 答案 。 
3.5.6 ”分别 为 int 和 double 两 种 原始 数据 类 型 的 键 实现 HashSETint 类 和 HashSETdouble 类 ( 删 去 你 
为 练习 3.5.4 给 出 的 答案 中 所 有 关于 值 的 代码 ) 。 
3.5.7 ”分别 为 int 和 double 两 种 原始 数据 类 型 的 键 实现 SETint 类 和 SETdouble 类 ( 删 去 你 为 练习 3.5.5 
给 出 的 答案 中 所 有 关于 值 的 代码 ) 。 
3.5.8 修改 LinearProbingHashST， 人 允许 在 表 中 保存 重复 的 键 。 对 于 get 0( 方法 ,返回 给 定 键 所 关联 
的 任意 值 ; 对 于 delete() 方法 ， 删 除 表 中 所 有 和 给 定 键 相等 的 键 值 对 。 
3.5.9 修改 二 又 查 找 树 BST， 人 允许 在 树 中 保存 重复 的 键 。 对 于 get 0) 方法 , 返回 给 定 键 所 关联 的 任意 值 ; 
对 于 delete() 方法 ， 删 除 树 中 所 有 和 给 定 键 相等 的 结 点 。 
3.5.10 ”修改 红 黑 树 RedBlackBST， 人 允许 在 树 中 保存 重复 的 键 。 对 于 get0) 方法 ， 返 回 给 定 键 所 关联 的 
任意 值 ; 对 于 delete0) 方法 ， 删 除 树 中 所 有 和 给 定 键 相等 的 结 点 。 
3.5.11 开发 一 个 和 SET 相似 的 类 MultiSET， 人 允许 出 现 相 等 的 键 ， 也 就 是 实现 了 数学 上 的 多 重 集合 。 
3.5.12 ”修改 LookupCSV, 将 每 个 键 和 输入 中 与 该 键 对 应 的 所 有 值 相 关联 ( 而 非 和 关联 型 抽象 数组 的 一 样 ， 
仅 关 联 最 近 出 现 的 那个 值 ) 。 
3.5.13 ”修改 LookupCSV 为 RangeLookupCSV， 从 标准 输入 接受 两 个 键 并 打印 出 .csv 文件 中 所 有 在 该 范 
围 之 内 的 键 值 对 。 
3.5.14 ”编写 并 测试 方法 invert() ， 它 接受 参数 ST<String，Bag<String>> 并 返回 给 定 符号 表 的 反 向 
索引 (一 个 相同 类 型 的 符号 表 ) 。 
3.5.15 ”编写 一 个 程序 ， 从 标准 输入 接受 一 个 字符 串 和 一 个 整数 大 作为 参数 ， 在 标准 输出 中 有 序 打印 出 
在 字符 串 中 找到 的 大 元 文法 (大 gram ) ， 以 及 每 个 k-gram 在 字符 串 中 的 位 置 。 
3.5.16 为 SparseVector 添加 一 个 sum() 方法 ， 接 受 一 个 SparseVector 对 象 作 为 参数 并 将 两 者 相 加 
的 结果 返回 为 一 个 SparseVector 对 象 。 请 注意 : 你 需要 使 用 delete(0) 方法 来 处 理 向 量 中 的 一 
项 变 为 0 的 情况 (请 特别 注意 精度 ) 。 
图 提高 是 
3.5.17 数学 集合 。 你 的 目标 是 实现 表 3.5.6 中 MathSET 的 API 来 处 理 ( 可 变 的 ) 数学 集合 。 


表 3.5.6 一 种 简单 的 集合 数据 类 型 的 API 
Public class MathSET<Key> 





MathSET(Key[] universe) 创建 一 个 集合 
void add(Key key) 将 key 加 入 集合 
MathSET<Key> complement() 所 有 不 在 该 集合 中 的 键 的 集合 
void union(MathSET<Key> a) ee 


void intersection(MathSET<Key> a) 0 a 中 的 键 删除 


void delete(Key key) 将 key 从 集合 中 删 去 
boolean contains(Key key) 集合 中 是 否 存 在 键 key 
boolean isEmpty() 集合 是 否 为 空 


int size() 集合 中 键 的 总 数 
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请 使 用 符号 表 来 实现 它 。 附 加 题 : 使 用 boolean 类 型 的 数组 来 表示 集合 。 

3.5.18 ”多重 集合 。 请 参考 练习 3.5.2、 练 习 3.5.3 以 及 前 面 的 练习 ， 为 无 序 和 有 序 的 多 重 集合 (可 以 含有 相 
同 的 键 的 集合 ) 给 出 Mu1tiHashSET 和 MultiSET 的 API， 并 分 别 用 SeparateChainingMu1tiSET 
和 BinarySearchMu1tiSET 实现 它们 。 

3.5.19 符号 表 中 的 等 值 键 。 ( 有 序 的 和 无 序 的 ) MultiST 的 API 分 别 和 表 3.1.2 以 及 表 3.1.4 中 定 
义 的 符号 表 API 相同 ， 只 是 允许 存在 等 值 的 键 。 因 此 ，get () 方法 的 行为 是 返回 给 定 键 所 关 
联 的 任意 值 。 男 外 ， 我 们 还 需要 添加 一 个 新 方法 来 返回 和 给 定 键 关联 的 所 有 值 : 


Iterable<Value> getAll(Key key) 
根据 我 们 的 SeparateChainingHashST 和 BinarySearchST 的 代码 来 实现 SeparateChaining- [50 
MultiST 和 BinarySearchMultiST 的 API。 

3.5.20 ”对照 索 引 。 编 写 一 个 ST 的 用 例 Concordance， 为 从 标准 输入 得 到 的 字符 串 构建 对 照 索引 并 打印 
出 来 (请 见 表 3.5.5 ) 。 

3.5.21 反 向 对 照 索引 。 编 写 一 个 程序 InvertedConcordance， 从 标准 输入 接受 一 个 对 照 索引 并 在 标 
准 输出 中 打印 出 原始 的 字符 串 。 注 意 : 这 个 计算 和 著名 的 “死海 卷轴 ”故事 有 关 。 最 早 发 
现 原 始 石板 的 团队 仅 公 开 了 用 一 种 不 为 人 知 的 方式 生成 的 对 照 索 引 。 一 段 时 间 之 后 其 他 研 
究 者 才 找到 了 如 何 将 这 种 索引 还 原 的 方法 ， 并 最 终 将 石板 上 的 全 文公 之 于 众 。 

3.5.22 ”完全 索引 的 CSV 文件 。 编 写 一 个 ST 的 用 例 Fu11LookupCSV， 构 造 一 个 ST 对 象 的 数组 〈 每 列 一 
个 ) ， 以 及 一 个 允许 使 用 者 指定 键 和 值 的 列 的 测试 用 例 。 

3.5.23 ”稀疏 给 阵 。 为 稀 踊 二 维 矩 阵 设计 一 组 API 并 将 它 实 现 ， 支 持 和 矩阵 的 加 法 和 乘法 操作 。 包 含 分 别 
能 够 指定 行 和 列 向 量 的 构造 函数 。 

3.5.24 不 重 登 的 区 间 查 找 。 给 定 对 象 的 一 组 互 不 重 释 的 区 间 ， 编 写 一 个 函数 接受 一 个 对 象 作 为 参数 并 判 
断 它 是 否 存在 于 其 中 任何 一 个 区 间 之 内 。 例 如 ， 如 果 对 象 是 整数 而 区 间 为 1643-2033，5532-7643， 
8999-10332,，5666653-5669321, 那么 查询 9122 的 结果 为 第 三 个 区 间 , 而 8122 的 结果 是 不 在 任何 区 间 。 

3.5.25 登记 员 的 日 程 安排 。 东 北部 某 著 名 大 学 的 注册 主任 最 近 作出 的 安排 中 有 一 位 老师 需要 在 同一 时 
间 为 两 个 不 同 的 班级 授课 。 请 用 一 种 方法 来 检查 类 似 的 冲突 , 帮助 这 位 主任 不 要 再 犯 同样 的 错误 。 
简单 起 见 ， 假 设 每 节 课 的 时 间 为 50 分 钟 ， 分 别 从 9:00、10:00、11:00、1:00、2:00 和 3:00 开始 。 

3.5.26 ”LRU 缓存 。 创 建 一 个 支持 以 下 操作 的 数据 结构 : 访问 和 删除 。 访 问 操作 会 将 不 存在 于 数据 结构 
中 的 元 素 插入 。 删 除 操作 会 删除 并 返回 最 近 访 问 过 的 元 素 。 提 示 : 将 元 素 按照 访问 的 先后 顺序 1510 
保存 在 一 条 双向 链表 之 中 ， 并 保存 指向 开头 和 结尾 元 素 的 指针 。 将 元 素 和 元 素 在 链表 中 的 位 置 
分 别 作为 键 和 相应 的 值 保存 在 一 张 符号 表 中 。 当 你 访问 一 个 元 素 时 ， 将 它 从 链表 中 删除 并 重新 
搬入 链表 的 头 部 。 当 你 删除 一 个 元 素 时 ， 将 它 从 链表 的 尾部 和 符号 表 中 删除 。 

3.5.27 列表。 实现 表 3.5.7 中 的 API: 


Ro 


表 3.5.7 列表 数据 类 型 的 API 


Public class List<Item> implements Iterable<Item> 


ListO) 创建 一 个 列表 
void addFront(Item item) 将 item 添加 到 列表 的 头 部 
void addBack(Item item) 将 item 添加 到 列表 的 尾部 
Item deleteFront() 删除 列表 头 部 的 元 素 


Item deleteBack() 删除 列表 尾部 的 元 素 
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( 续 ) 
Public class List<Item> implements Iterable<Item> 

void delete(Item item) 从 列表 中 删除 item 

void add(int i, Item item) 将 item 添加 为 列表 的 第 i 个 元 素 

Item delete(int i) 从 列表 中 删除 第 i 个 元 素 
boolean contains(Item item) 列表 中 是 否 存在 元 素 item 
boolean isEmpty() 列表 是 否 为 空 

int size() 列表 中 元 素 的 总 数 


提示 : 使 用 两 个 符号 表 ， 一 个 用 来 快速 定位 列表 中 的 第 i 个 元 素 ， 另 一 个 用 来 快速 根据 元 
素 查 找 。 (Java 的 java.uti1.List 包含 类 似 的 方法 , 但 它 的 实现 的 操作 并 不 都 是 高 效 的 。) 
uniQueue。 创 建 一 个 类 似 于 队列 的 数据 类 型 ， 但 每 个 元 素 只 能 插入 队列 一 次 。 用 一 个 符号 表 来 
记录 所 有 已 经 被 插入 的 元 素 并 忽略 所 有 将 它们 重新 插入 的 请 求 。 

支持 随机 访问 的 符号 表 。 创 建 一 个 数据 结构 ， 能 够 向 其 中 插入 键 值 对 ， 查 找 一 个 键 并 返回 相应 
的 值 以 及 删除 并 返回 一 个 随机 的 键 。 提 示 : 将 一 个 符号 表 和 一 个 随机 队列 结合 起 来 实现 该 数据 
结构 。 





图 实验 是 


3.5.30 


3.5.31 


3.5.32 


3.5.33 


3.5.34 
3.5.35 


重复 元 素 ( 续 ) 使 用 3.5.2.1 节 的 dedup 过 滤器 重新 完成 练习 2.5.31。 比 较 两 种 解决 方法 的 运行 时 间 。 
然后 使 用 dedup 运行 试验 , 其 中 NE10 、10 和 10” 使 用 随机 的 1ong 值 重 新 完成 试验 并 讨论 结果 。 
拼写 检查 。 将 本 书 网 站 上 的 dictionarytxt 文件 作为 命令 行 参数 ， 用 3.5.2.2 节 的 BlackFilter 程序 打 
印 出 从 标准 输入 接受 的 文本 文件 中 所 有 拼写 错误 的 单词 。 在 这 个 测试 中 分 别 使 用 RedB1ackBST、 
SeparateChainingHashST 和 LinearProbingHashST 人 处理 WarAndPeace.txt ( 本 书 网 站 提供 ) 并 讨 
论 结果 。 

字典 。 在 一 个 性 能 优先 的 场景 中 研究 类 似 于 LookupCSV 用 例 的 性 能 。 请 设计 一 个 查询 生成 器 来 
代替 标准 输入 并 用 大 量 的 输入 和 查询 来 测试 用 例 的 性 能 。 

索引 。 在 一 个 性 能 优先 的 场景 中 研究 类 似 于 LookupIndex 用 例 的 性 能 。 请 设计 一 个 查询 生成 器 来 
代替 标准 输入 并 用 大 量 的 输入 和 查询 来 测试 用 例 的 性 能 。 

稀疏 向 量 。 用 实验 来 比较 使 用 稀 朴 矩阵 和 使 用 标准 数组 实现 矩阵 向 量 乘 法 的 性 能 。 

原始 数据 类 型 。 对 于 LinearProbingHashST 和 RedB1ackBST， 评 估 使 用 原始 数据 类 型 来 表示 
Integer 和 Double 值 的 情况 。 如 果 在 一 张 巨型 的 符号 表 中 进行 大 量 的 查找 ， 这 么 做 能 节省 多 少 
空间 和 时 间 ? 





在 许多 计算 机 应 用 中 ， 由 相连 的 结 点 所 表示 的 模型 起 到 了 关键 的 作用 。 这 些 结 点 之 间 的 连接 很 
自然 地 会 让 人 们 产生 一 连 串 的 疑问 : 沿 着 这 些 连接 能 否 从 一 个 结 点 到 达 另 一 个 结 点 ?有 和 多少 个 结 点 
和 指定 的 结 点 相连 ?两 个 结 点 之 间 最 短 的 连接 是 哪 一 条 ? 

要 描述 这 些 问 题 ， 我 们 要 使 用 一 种 抽象 的 数学 对 象 ， 叫 做 图 。 本 章 中 ， 我 们 会 详细 研究 图 的 基 
本 性 质 ， 为 学 习 各 种 算法 并 回答 这 种 类 型 的 疑问 作 好 准备 。 这 些 算 法 是 解决 许多 重要 的 实际 问题 的 
基础 ， 没 有 优秀 的 算法 ， 这 些 问题 的 解决 无 法 想象 。 

图 论 作 为 数学 领域 中 的 一 个 重要 分 支 已 经 有 数 百 年 的 历史 了 。 人 们 发 现 了 图 的 许多 重要 而 实用 
的 性 质 ， 发 明了 许多 重要 的 算法 ， 其 中 许多 困难 问题 的 研究 仍然 十 分 活跃 。 本 章 中 ， 我 们 会 介绍 一 
系列 基础 的 图 算法 ， 它 们 在 各 种 应 用 中 都 十 分 重要 。 

和 我 们 已 经 研究 过 的 许多 其 他 问题 域 一 样 ， 关 于 图 的 算法 研究 相对 来 说 才 开 始 不 入。 尽管 有 些 
基础 的 算法 在 几 个 世纪 前 就 已 发 现 了 ,但 大 多 数 有 趣 的 结论 都 是 近 几 十 年 才 被 发 现 。 得 益 于 我 们 已 
经 学 习 过 的 那些 算法 ， 即 使 是 由 最 简单 的 图 论 算法 得 到 的 程序 也 是 很 有 用 的 ， 而 那些 我 们 将 要 学 习 
的 复杂 算法 则 都 是 已 知 的 最 优美 和 最 有 意思 的 算法 的 一 部 分 。 

为 了 展示 图 论 应 用 的 广泛 领域 ， 在 探索 这 片 富 僻 之 地 之 前 ， 我 们 先 来 看 以 下 几 个 示例 。 

地 图 。 正 在 计划 旅行 的 人 也 许 想 知道 “从 普罗 维 登 斯 到 普林斯顿 的 最 短路 线 ”。 对 最 短路 径 上 
经 历 过 交通 堵塞 的 旅行 者 可 能 会 问 :“ 从 普罗 维 登 斯 到 普林斯顿 的 哪 条 路 线 最 快 ? “要 回答 这 些 问 题 ， 
我 们 都 要 处 理 有 关 结 点 ( 十字 路 口 ) 之 间 多 条 连接 (公路 ) 的 信息 。 

网 页 信息 。 当 我 们 在 浏览 网 页 时 ， 页 面 上 都 会 包含 其 他 网 页 的 引用 (链接) 。 通 过 单 击 链接 ， 
我 们 可 以 从 一 个 页 面 跳 到 男 一 个 页 面 。 整 个 互联 网 就 是 一 张 图 ， 结 点 是 网 页 ， 连 接 就 是 超 链 接 。 图 
算法 是 帮助 我 们 在 网 络 上 定位 信息 的 搜索 引擎 的 关键 组 件 。 

电路 。 在 一 块 电路 板 上 ， 晶 体 管 、 电 阻 、 电 容 等 各 种 元 件 是 精密 连接 在 一 起 的 。 我 们 使 用 计算 
机 来 控制 制造 电路 板 的 机 器 并 检查 电路 板 的 功能 是 否 正常 。 我 们 既 要 检查 短路 这 类 简单 问题 ， 也 要 
检查 这 幅 电路 图 中 的 导线 在 蚀刻 到 芯片 上 时 是 否 会 出 现 交叉 等 复杂 问题 。 第 一 类 问题 的 答案 仅 取决 
于 连接 ( 导线 ) 的 属性 ， 而 第 二 个 问题 则 会 涉及 导线 、 各 种 元 件 以 及 芯片 的 物理 特性 等 详细 信息 。 

任务 调度 。 商 品 的 生产 过 程 包含 了 许多 工序 以 及 一 些 限制 条 件 ， 这 些 条 件 会 决定 某 些 任务 的 先后 
次 序 。 如 何 安排 才能 在 满足 限制 条 件 的 情况 下 用 最 少 的 时 间 完 成 这 些 生产 工序 呢 ? 

商业 交易 。 零 售 商 和 金融 机 构 都 会 跟踪 市 场 中 的 买卖 信息 。 在 这 种 情形 下 ， 一 条 连接 可 以 表示 
现金 和 商品 在 买方 和 卖方 之 间 的 转移 。 在 此 情况 下 ， 理 解 图 的 连接 结构 原理 可 能 有 助 于 增强 人 们 对 
市 场 的 理解 。 

配对 。 学 生 可 以 申请 加 入 各 种 机 构 ， 例 如 社交 俱乐部 、 大 学 或 是 医学 院 等 。 这 里 结 点 就 对 应 学 
生 和 机 构 ， 而 连接 则 对 应 递交 的 申请 。 我 们 希望 找到 申请 者 与 他 们 感 兴趣 的 空位 之 间 配 对 的 方法 。 
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计算 机 网 络 。 计 算 机 网 络 是 由 能 够 发 送 、 转 发 和 接收 各 种 消息 的 站 点 互相 连接 组 成 的 。 我 们 感 
516| ”兴趣 的 是 这 种 互联 结构 的 性 质 , 因为 我 们 希望 网 络 中 的 线路 和 交换 设备 能 够 高 效率 地 处 理 网 络 流量 。 
软件 。 编 译 器 会 使 用 图 来 表示 大 型 软件 系统 中 各 个 模块 之 间 的 关系 。 图 中 的 结 点 即 构成 整个 系统 
的 各 种 类 和 模块 ， 连 接 则 为 类 的 方法 之 间 的 可 能 调用 关系 〈 静态 分 析 ) ， 或 是 系统 运行 时 的 实际 调用 关 
系 〈 动 态 分 析 ) 。 我 们 需要 分 析 这 幅 图 来 决定 如 何以 最 优 的 方式 为 程序 分 配 资源 。 
社交 网 络 。 当 你 在 使 用 社交 网 站 时 ， 会 和 你 的 朋友 之 间 建 立 起 明确 的 关系 。 这 里 ， 结 点 对 应 人 
而 连接 则 联系 着 你 和 你 的 朋友 或 是 关注 者 。 分 析 这 些 社交 网 络 的 性 质 是 当前 图 算法 的 一 个 重要 应 用 。 
对 它 感 兴趣 的 不 止 是 社交 网 络 的 公司 ， 还 包括 政治 、 外 交 、 娱 乐 、 教 育 、 市 场 等 许多 其 他 机 构 ( 参 








见 表 4.0.1 ) 。 
表 4.0.1 图 的 典型 应 用 

应 ”用 结 点 连 接 
地 图 十 字 路 口 公路 
网 络 内 容 网 页 超 链接 
电路 元 器 件 导线 
任务 调度 任务 限制 条 件 
商业 交易 客户 交易 
配对 学 生 申请 
计算 机 网 络 网 站 物理 连接 
软件 方法 调用 关系 
社交 网 络 人 友谊 关系 


这 些 示例 展示 了 图 作为 一 种 抽象 模型 的 应 用 范围 以 及 我 们 在 处 理 图 时 可 能 会 遇 到 的 各 种 计算 问 
题 。 人 们 研究 过 的 关于 图 的 问题 数 以 千 计 ， 但 它们 大 多 数 都 能 用 一 些 简单 的 图 模型 解决 一 一 本 章 我 
们 将 会 学 习 几 个 最 重要 的 模型 。 在 实际 应 用 中 ， 处 理 庞大 的 数据 是 很 常见 的 ， 因 此 解决 方法 是 否 可 
行 完全 取决 于 算法 的 效率 。 
在 本 章 中 ， 我 们 会 依次 学 习 4 种 最 重要 的 图 模型 : 无 向 图 ( 简单 连接 ) 、 有 向 图 (连接 有 方向 
517| 性 ) 、 加 权 图 (连接 带 有 权 值 ) 和 加 权 有 向 图 ( 连接 既 有 方向 性 又 带 有 权 值 ) 。 
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4.1 无 向 图 

在 我 们 首先 要 学 习 的 这 种 图 模型 中 ， 边 (edge ) 仅仅 是 两 个 顶点 ( vertex ) 之 间 的 连接 。 为 了 
和 其 他 图 模型 相 区 别 ， 我们 将 它 称 为 无 向 图 。 这 是 一 种 最 简单 的 图 模型 ， 我 们 先 来 看 一 下 它 的 定义 。 
定义 。 图 是 由 一 组 顶点 和 一 组 能 够 将 两 个 顶点 相连 的 边 组 成 的 。 ， 


就 定义 而 言 , 顶 点 叫 什么 名 字 并 不 重要 ,但 我 们 需要 一 个 方法 来 指 代 这 些 顶 点 ,一 般 使 用 0 至 做 1 
来 表示 一 张 含 有 VV 个 顶点 的 图 中 的 各 个 顶点 。 这 样 约定 是 为 了 方便 使 用 数组 的 索引 来 编写 能 够 高 效 
访问 各 个 顶点 中 信息 的 代码 。 用 一 张 符号 表 来 为 项 点 的 名 字 和 0 到 广 1 的 整数 值 建立 一 一 对 应 的 关 


系 并 不 困难 ( 请 见 4.1.7 节 ) ， 因 此 直接 使 用 数组 索引 作为 结 点 @) 

的 名 称 更 方便 且 不 失 一 般 性 ( 也 不 会 损失 什么 效率 )。 我 们 用 v-w NG (6) 

的 记 法 来 表示 连接 v 和 w 的 边 , w-v 是 这 条 边 的 另 一 种 表示 方法 。 全 Ga 
在 绘制 一 幅 图 时 ， 用 圆圈 表示 顶点 ， 用 连接 两 个 顶点 的 线段 PC 

表示 边 ， 这 样 就 能 直观 地 看 出 图 的 结构 。 但 这 种 直觉 有 时 也 可 能 


会 误导 我 们 , 因为 图 的 定义 和 绘 出 的 图 像 是 无 关 的 。 例 如 , 图 4.1.1 
中 的 两 组 图 表示 的 是 同一 幅 图 ， 因 为 图 的 构成 只 有 (无 序 的 ) 顶 
点 和 边 ( 顶点 对 ) 。 

特殊 的 图 。 我 们 的 定义 允许 出 现 两 种 简单 而 特殊 的 情况 ， 
参见 图 4.1.2: 





口 自 环 ， 即 一 条 连接 一 个 顶点 和 其 自身 的 边 ; 图 4.1.1 同一 幅 图 的 两 种 表示 
口 连接 同一 对 顶点 的 两 条 边 称 为 平行 边 。 
数学 家 常常 将 含有 平行 边 的 图 称 为 多 重 图 ， 而 将 没有 平行 自 环 
边 或 自 环 的 图 称 为 简单 图 。 一 般 来 说 ， 实 现 允 许 出 现 自 环 和 平 
行 边 ( 因为 它们 会 在 实际 应 用 中 出 现 ) ， 但 我 们 不 会 将 它们 作 二 
为 示例 。 因 此 ， 我 们 用 两 个 顶点 就 可 以 指 代 一 条 边 了 。 特殊 的 图 518 
4.1.1 术语 表 | 


和 图 有 关 的 术语 非常 多 ， 其 中 大 多 数 定义 都 很 简单 ， 我 们 在 这 里 集中 介绍 。 

当 两 个 顶点 通过 一 条 边 相连 时 ， 我 们 称 这 两 个 顶点 是 相 邻 的 ， 并 称 该 连接 依附 于 这 两 个 顶点 。 
某 个 顶点 的 度数 即 为 依附 于 它 的 边 的 总 数 。 子 图 是 由 一 幅 图 的 所 有 边 的 一 个 子 集 〈 以 及 它们 所 依附 
的 所 有 顶点 ) 组 成 的 图 。 许 多 计算 问题 都 需要 识别 各 种 类 型 的 子 图 ， 特 别 是 由 能 够 顺序 连接 一 系列 
顶点 的 边 所 组 成 的 子 图 。 


定义 。 在 图 中， 路 径 是 由 边 顺 序 连 接 的 一 系列 顶点 。 简 单 路 径 是 条 没有 重复 顶点 的 路 径 。 球 
是 一 条 至 少 含有 一 条 边 且 起 点 和 终点 相同 的 路 径 。 简 单 环 是 一 条 (除了 起 点 和 终点 必须 相同 之 


外 ) 不 合 有 重复 顶点 和 边 的 环 。 路 径 或 者 环 的 长 度 为 其 中 所 包含 的 边 数 。 


大 多 数 情况 下 , 我 们 研究 的 都 是 简单 环 和 简单 路 径 并 会 省 略 掉 简单 二 字 。 当 允许 重复 的 顶点 时 ， 
我 们 指 的 都 是 一 般 的 路 径 和 环 。 当 两 个 顶点 之 间 存 在 一 条 连接 双方 的 路 径 时 ， 我 们 称 一 个 顶点 和 另 
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一 个 顶点 是 连通 的 。 我 们 用 类 似 u-v-w-x 的 记 法 来 表示 u 到 x 的 一 条 路 径 ， 用 u-v-w-x-u 表示 从 
u 到 v 到 w 到 x 再 回 到 vu 的 一 条 环 。 我 们 会 学 习 几 种 查找 路 径 和 环 的 算法 。 男 外 ， 路 径 和 环 也 会 帮 
我 们 从 整体 上 考虑 一 幅 图 的 性 质 ， 参 见 图 4.1.3。 


定义 。 如 果 从 任意 一 个 顶点 都 存在 一 条 路 径 到 达 另 一 个 任意 顶点 ， 我 们 称 这 幅 图 是 连通 图 。 一 
幅 非 连通 的 图 由 若干 连通 的 部 分 组 成 ， 它 们 都 是 其 极 大 连通 子 图 。 





直观 上 来 说 ， 如 果 项 点 是 物理 存在 的 对 象 ， 例 如 强 节 或 是 念珠 ， 而 边 也 是 物理 存在 的 对 象 ， 例 
如 绳子 或 是 电线 ， 那 么 将 任意 顶点 提起 ， 连 通 图 都 将 是 一 个 整体 ， 而 非 连 通 图 则 会 变 成 两 个 或 多 个 
部 分 。 一 般 来 说 ， 要 处 理 一 张 图 就 需要 一 个 个 地 处 理 它 的 连通 分 量 ( 子 图 ) 。 

无 环 图 是 一 种 不 包含 环 的 图 。 我 们 将 要 学 习 的 几 个 算法 就 是 要 找 出 一 幅 图 中 满足 一 定 条 件 的 无 
环 子 图 。 我 们 还 需要 一 些 术语 来 表示 这 些 结构 。 


定义 。 树 是 一 幅 无 环 连 通 图 。 互 不 相连 的 树 组 成 的 集合 称 为 森林 。 连 通 图 的 生成 树 是 它 的 一 幅 
子 图 ， 它 含有 图 中 的 所 有 顶点 且 是 一 棵 树 。 图 的 生成 树 森 林 是 它 的 所 有 连通 子 图 的 生成 树 的 集 
合 ， 参见 图 4.1.4 和 图 4.1.5。 


18 个 顶点 
17 条 边 | 





图 4.1.3 图 的 详解 图 4.1.4 一 棵 树 图 4.1.5 生成 树 森 林 


树 的 定义 非常 通用 , 稍 做 改动 就 可 以 变 成 用 来 描述 程序 行为 的 ( 函数 调用 层次 ) 模 型 和 数据 结构 ( 二 
又 查找 树 、2-3 树 等 ) 。 树 的 数学 性 质 很 直观 并 且 已 被 系统 地 研究 过 ， 因 此 我 们 就 不 给 出 它们 的 证 明了 。 
例如 ， 当 且 仅 当 一 幅 含 有 大 个 结 点 的 图 G 满足 下 列 5 个 条 件 之 一 时 ， 它 就 是 一 棵 树 : 

口 G 有 大 1 条 边 且 不 含有 环 ; 

口 G 有 大 1 条 边 且 是 连通 的 ; 

口 是 连通 的 ， 但 删除 任意 一 条 边 都 会 使 它 不 再 连通 ; 

口 G 是 无 环 图 ， 但 添加 任意 一 条 边 都 会 产生 一 条 环 ; 

口 G 中 的 任意 一 对 顶点 之 间 仅 存在 一 条 简单 路 径 。 

我 们 会 学 习 几 种 寻找 生成 树 和 森林 的 算法 ， 以 上 这 些 性 质 在 分 析 和 实现 这 些 算 法 的 过 程 中 扮演 
着 重要 的 角色 。 
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图 的 密度 是 指 已 经 连接 的 顶点 对 占 所 有 可 能 被 连接 的 顶点 对 的 比例 。 在 稀 玖 图 中 ， 被 连接 的 顶点 
对 很 少 ; 而 在 稠密 图 中 ， 只 有 少 部 分 顶点 对 之 间 没 有 边 连 接 。 一 般 来 说 ， 如 果 一 幅 图 中 不 同 的 边 的 数 
量 只 占 顶 点 总 数 夺 的 一 小 部 分 ， 那 么 我 们 就 认为 这 幅 图 是 稀 玻 的 ， 否 则 则 是 稠密 的 ， 参 见 图 4.1.6。 
这 条 经 验 规律 虽然 会 留 下 一 片 灰色 地 带 ( 比如 当 边 的 数量 为 ~ eV 时 ) ， 但 实际 应 用 中 稀 琉 图 和 确 
密 图 之 间 的 区 别 是 十 分 明显 的 。 我 们 将 会 遇 到 的 应 用 使 用 的 几乎 都 是 稀疏 图 。 


二 分 图 是 一 种 能 够 将 所 有 结 点 分 为 两 部 分 的 图 ， 其 中 图 的 每 条 边 所 连接 的 两 个 顶点 都 分 别 属 于 不 
同 的 部 分 。 图 4.1.7 即 为 一 幅 二 分 图 的 示例 ,其 中 红色 的 结 点 是 一 个 集合 , 黑色 的 结 点 是 另 一 个 集合 。 


二 分 图 会 出 现在 许多 场景 中 ， 我 们 会 在 本 节 的 最 后 详细 研究 其 中 的 一 个 场景 。 


稀疏 图 (E=200) 稠密 图 (E=1000) 





图 4.1.6 ”两 幅 图 ( 态 50) 图 4.1.7 二 分 图 ( 男 见 彩 插 ) 

现在 ,我 们 已 经 做 好 了 学 习 图 处 理 算法 的 准备 。 我 们 首先 会 研究 一 种 表示 图 的 数据 类 型 的 API 及 
其 实现 ， 然 后 会 学 习 一 些 查找 图 和 鉴别 连通 分 量 的 经 典 算 法 。 最 后 ， 我 们 会 考虑 真实 世界 中 的 一 些 图 Sy 
的 应 用 ， 它 们 的 顶点 的 名 字 可 能 不 是 整数 并 且 会 含有 数目 庞大 的 顶点 和 边 。 521 
4.1.2 ”表示 无 向 图 的 数据 类 型 

要 开发 处 理 图 问题 的 各 种 算法 ， 我 们 首先 来 看 一 份 定义 了 图 的 基本 操作 的 API， 参 见 表 4.1.1。 
有 了 它 我 们 才能 完成 从 简单 的 基本 操作 到 解决 复杂 问题 的 各 种 任务 。 

表 4.1.1 无 向 图 的 API 


public class Graph 


Graph(Cint V) 创建 一 个 含有 了 个 顶点 但 不 含有 边 的 图 
Graph(In in) 从 标准 输入 流 in 读 入 一 幅 图 
int VO 顶点 
int EO 边 数 
void addEdge(int v, int w) 向 图 中 添加 一 条 边 v-w 
Iterable<Integer> adj(int v) 和 v 相 邻 的 所 有 顶点 
String toString() 对 象 的 字符 串 表示 
这 份 API 含有 两 个 构造 函数 ， 有 两 个 方法 用 来 分 别 返 回 图 中 的 顶点 数 和 边 数 ， 有 一 个 方法 用 来 添 


加 一 条 边 ，toString0) 方法 和 adj 方法 用 来 允许 用 例 遍历 给 定 顶 点 的 所 有 相 邻 顶点 (遍历 顺序 不 确 
定 ) 。 值 得 注意 的 是 ， 本 节 将 学 习 的 所 有 算法 都 基于 adj 0O) 方法 所 抽象 的 基本 操作 。 

第 二 个 构造 函数 接受 的 输入 由 2B+2 个 整数 组 成 : 首先 是 VV， 然后 是 ,再 然后 是 E 对 0 到 六 -1 
之 间 的 整数 ， 每 个 整数 对 都 表示 一 条 边 。 例 如 ， 我 们 使 用 了 由 图 4.1.8 中 的 tinyG.txt 和 mediumG .txt 
所 描述 的 两 个 示例 。 


调用 Graph 的 几 段 用 例 代码 请 见 表 4.1.2。 





tinyG. txt mediumG. txt 
V3 Vs 250 
13 < 一 人 1273 
05 @) 244 246 
4 3 239 240 
0 工 (6) 238 245 
9 12 (CD TI) 235 238 
6 4 233 240 
5 4 0 KO 232 248 
02 231 248 
1112 (5) CD 229 249 
9 10 228 241 
0 6 226 231 
7 8 Lt 
9 11 (还 有 1263 行 ) 
5 3 
图 4.1.8 Graph 的 构造 函数 的 输入 格式 (两 个 示例 ) 
表 4.1.2 最 常用 的 图 处 理 代码 
任 务 实 现 
计算 v 的 度数 public static int degree(Graph G, int v) 
{ 
int degree = 0; 
for (int w : G.adj(v)) degree++; 
return degree; 
} 
计算 所 有 顶点 的 最 大 度数 public static int maxDegree(Graph G) 
{ 
int max = 0; 
for (int v= 0; Vv < G.VO; v++) 
if (degree(G, v) > max) 
max = degree(G, Vv); 
return max; 


计算 所 有 顶点 的 平均 度数 public static double avgDegree(Graph G) 


t Verurnl 2 * GECY A GO 去 





计算 自 环 的 个 数 public static int numberOfSelfLoops(Graph G) 
. 
int count = 0; 
for (int v = 0; Vv < G.VO; v++) 
for (int w : G.adj(v)) 
if (v == W) count++; 
return count/2; // 每 条 边 都 被 记过 两 次 
» 
图 的 邻接 表 的 字符 串 表示 (Graph public String toString() 
的 实例 方法 ) £ 
String s = V+ " vertices, " + E+ " edges\n"; 
for (Cint v = 0; Vv <.V; Vv++) 
{ 
S++= V+": "; 
for (int w : this.adj(v)) 
S+=W+" "; 
+= "Nn 
} 
return s; 
} 
4.1.2.1 图 的 几 种 表示 方法 


我 们 要 面 对 的 下 一 个 图 处 理 问题 就 是 用 哪 种 方式 〈 数据 结构 ) 来 表示 图 并 实现 这 份 API， 这 包 
含 以 下 两 个 要 求 : 


口 它 必须 为 可 能 在 应 用 中 碰 到 的 各 种 类 型 的 图 
预 留 出 足够 的 空间 ; 
口 Graph 的 实例 方法 的 实现 一 定 要 快 一 一 它们 
是 开发 处 理 图 的 各 种 用 例 的 基础 。 
这 些 要 求 比较 模糊 ， 但 它们 仍然 能 够 帮助 我 们 
在 三 种 图 的 表示 方法 中 进行 选择 。 
口 邻接 和 矩阵。 我 们 可 以 使 用 一 个 V 乘 依 的 布尔 
和 矩阵 。 当 项 点 v 和 顶点 w 之 间 有 相连 接 的 边 
时 ， 定义 v 行 w 列 的 元 素 值 为 true， 否则 为 
false。 这 种 表示 方法 不 符合 第 一 个 条 件 
含有 上 百 万 个 顶点 的 图 是 很 常见 的 ， 随 个 布尔 
值 所 需 的 空间 是 不 能 满足 的 。 
口 边 的 数组 。 我们 可 以 使 用 一 个 Edge 类 , 它 
含有 两 个 int 实例 变量 。 这 种 表示 方法 很 简 
洛 但 不 满足 第 二 个 条 件 一 一 要 实现 adj 0) 需 
要 检查 图 中 的 所 有 边 。 
口 邻接 表 数 组 。 我 们 可 以 使 用 一 个 以 顶点 为 索引 
的 列表 数组 ， 其 中 的 每 个 元 素 都 是 和 该 顶点 相 
邻 的 顶点 列表 ， 参 见 图 4.1.9。 这 种 数据 结构 能 
够 同时 满足 典型 应 用 所 需 的 以 上 两 个 条 件 ， 我 
们 会 在 本 章 中 一 直 使 用 它 。 
除了 这 些 性 能 目标 之 外 ， 经 过 续 密 的 检查 ， 我 
们 还 发 现 了 另 一 些 在 某 些 应 用 中 可 能 会 很 重要 的 东 
西 ,例如 , 允许 存在 平行 边 相 当 于 排除 了 邻接 矩阵 ， 
因为 邻接 矩阵 无 法 表示 它们 。 
4.1.2.2 ”邻接 表 的 数据 结构 
非 稠密 图 的 标准 表示 称 为 邻接 表 的 数据 结构 ， 
它 将 每 个 顶点 的 所 有 相 邻 顶点 都 保存 在 该 顶点 对 应 
的 元 素 所 指向 的 一 张 链 表 中 。 我 们 使 用 这 个 数组 就 
是 为 了 快速 访问 给 定 顶 点 的 邻接 顶点 列表 。 这 里 使 
用 1.3 节 中 的 Bag 抽象 数据 类 型 来 实现 这 个 链表 ， 
这 样 我 们 就 可 以 在 常数 时 间 内 添加 新 的 边 或 遍历 任 
意 顶 点 的 所 有 相 邻 顶点。 后 面 框 注 “Graph 数 据 类 型 ” 
中 的 Graph 类 的 实现 就 是 基于 这 种 方法 ， 而 图 4.1.9 
中 所 示 的 正 是 用 这 种 方法 处 理 tinyG.txt 所 得 到 的 数 
据 结 构 。 要 添加 一 条 连接 v 与 w 的 边 ， 我 们 将 w 添 
加 到 v 的 邻接 表 中 并 把 v 添加 到 w 的 邻接 表 中 。 因 
此 ， 在 这 个 数据 结构 中 每 条 边 都 会 出 现 两 次 。 这 种 
Graph 的 实现 的 性 能 有 如 下 特点 : 
口 使 用 的 空间 和 VE 成 正比 ; 
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4.1.10 由 边 得 到 的 邻接 表 ( 另 见 彩 插 ) 
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口 添加 一 条 边 所 需 的 时 间 为 常数 ; 
口 遍历 顶点 v 的 所 有 相 邻 顶点 所 需 的 时 间 和 v 的 度数 成 正比 ( 处 理 每 个 相 邻 顶点 所 需 的 时 间 
为 常数 ) 。 
对 于 这 些 操作 ， 这 样 的 特性 已 经 是 最 优 的 了 ， 这 已 经 可 以 满足 图 处 理应 用 的 需要 ， 而 且 支 持平 行 
边 和 自 环 (我 们 不 会 检测 它们 ) 。 注 意 ， 边 的 插入 顺序 决定 了 Graph 的 邻接 表 中 顶点 的 出 现 顺 序 ， 
参见 图 4.1.10。 多 个 不 同 的 邻接 表 可 能 表示 着 同一 幅 图 。 当 使 用 构造 函数 从 标准 输入 中 读 入 一 幅 图 时 ， 
这 就 意味 着 输入 的 格式 和 边 的 顺序 决定 了 Graph 的 邻接 表 数 组 中 顶点 的 出 现 顺 序 。 因 为 算法 在 使 用 
adjQ 来 处 理 所 有 相 邻 的 顶点 时 不 会 考虑 它们 在 邻接 表 中 的 出 现 顺序 ， 这 种 差异 不 会 影响 算法 的 正确 
性 ， 但 在 调试 或 是 跟踪 邻接 表 的 轨迹 时 我 们 还 是 需要 注意 这 一 点 。 为 了 简化 操作 ， 假 设 Graph 有 一 
个 测试 用 例 来 从 命令 行 参数 指定 的 文件 中 读 取 一 幅 图 并 将 它 打印 出 来 (参见 表 4.1.2 中 的 toStringQ) 
525| 方法 的 实现 ) , 以 显示 邻接 表 中 的 各 个 顶点 的 出 现 顺序 , 这 也 是 算法 处 理 它们 的 顺序 (请 见 练习 4.1.7 ) 。 


Graph 数据 类 型 
public class Graph 
private final int V; // 顶点 数目 
private int E; // 边 的 数目 


private Bag<Integer>[] adj;  // 邻接 表 
public GraphCint V) 


This 二 Ve ThyssEa "08 
adj = (Bag<Integer>[]) new Bag[V]; // 创建 邻接 表 
让 // 将 所 有 链表 初始 化 为 室 


adj[v] = new Bag<Integer>(); 


} 
public Graph(In in) 


光 
this(in.readIntO)); // 读 取 V 并 将 图 初始 化 
int E = in.readInt(); // 读 取 E 
For Cnt 1 a Or TE T1434 
{ // 添加 一 条 边 
int v = in.readInt(); // 读 取 一 个 顶点 
int w = in.readInt(); // 读 取 另 一 个 顶点 
addEdge(v, w); // 添加 一 条 连接 它们 的 边 
} 


public int VO { return V; } 
public int ECG { return E; } 
public void addEdge(int v, int w) 


{ 
adj[v] .add(Cw); // 将 Ww 添加 到 V 的 链表 中 
adj[w] .add(v); // 将 Vv 添 加 到 W 的 链表 中 
E++; 
} 


public Iterable<Integer> adj(int v) 
ft Teturr adjlvls 3 
上 
这 份 Graph 的 实现 使 用 了 一 个 由 顶点 索引 的 整 型 链表 数组 。 每 条 边 都 会 出 现 两 次 ， 即 当 存 在 一 条 连 
接 v 与 w 的 边 时 ，w 会 出 现在 v 的 链表 中 ，v 也 会 出 现在 w 的 链表 中 。 第 二 个 构造 函数 从 输入 流 中 读 取 一 
[526] 幅 图 , 开头 是 VV， 然后 是 ,再 然后 是 一 列 整数 对 ， 大 小 在 0 到 矿 ! 之 间 。tostring() 方法 请 见 表 4.1.2。 
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在 实际 应 用 中 还 有 一 些 操作 可 能 是 很 有 用 的 ， 例 如 : 

口 添加 一 个 顶点 ; 

口 删除 一 个 顶点 。 

实现 这 些 操作 的 一 种 方法 是 扩展 之 前 的 API, 使 用 符号 表 ( ST ) 来 代替 由 顶点 索引 构成 的 数组 ( 这 
样 修改 之 后 就 不 需要 约定 顶点 名 必须 是 整数 了 ) 。 我 们 可 能 还 需要 : 

口 删除 一 条 边 ; 

口 检查 图 是 否 含有 边 v-w。 

要 实现 这 些 方 法 (不 允许 存在 平行 边 ) ， 我 们 可 能 需要 使 用 SET 代替 Bag 来 实现 邻接 表 。 我 们 
称 这 种 方法 为 邻接 集 。 本 书 中 不 会 使 用 这 些 数据 结构 ， 因 为 : 

口 用 例 代 码 不 需要 添加 顶点 、 删 除 项 点 和 边 或 是 检查 一 条 边 是 否 存在 ; 

口 当 用 例 代码 需要 进行 上 述 操作 时 ， 由 于 频率 很 低 或 者 相关 的 邻接 链表 很 得， 因此 可 以 直接 使 

口 使 用 SET 和 ST 会 令 算 法 的 实现 变 得 更 加 复杂 ， 分 散 了 读者 对 算法 本 身 的 注意 力 ; 

口 在 某 些 情况 下 ， 它 们 会 使 性 能 损失 logy。 

使 我 们 的 算法 适应 其 他 设计 ( 例如， 不 允许 出 现 平行 边 或 是 自 环 ) 并 避免 不 必要 的 性 能 损失 并 
不 困难 。 表 4.1.3 总 结 了 之 前 提 到 过 的 所 有 其 他 实现 方法 的 性 能 特点 。 常 见 的 应 用 场景 都 需要 处 理 
庞大 的 稀疏 图 ， 因 此 我 们 会 一 直 使 用 邻接 表 。 


表 4.1.3 典型 Graph 实现 的 性 能 复杂 度 


数据 结构 所 需 空间 添加 一 条 边 v-w ”检查 w 和 v 是 否 相 邻 遍历 v 的 所 有 相 邻 顶点 
边 的 列表 E 1 E E 

邻接 矩阵 大 1 1 V 

邻接 表 E+V 1 degree(v) degree(v) 

邻接 集 E+V logF logy logV+degree(v) 


4.1.2.3 ”图 的 处 理 算法 的 设计 模式 

因为 我 们 会 讨论 大 量 关于 图 处 理 的 算法 ， 所 以 设计 的 首要 目标 是 将 图 的 表示 和 实现 分 离开 来 。 
为 此 ， 我 们 会 为 每 个 任务 创建 一 个 相应 的 类 ， 用 例 可 以 创建 相应 的 对 象 来 完成 任务 。 类 的 构造 函数 
一 般 会 在 预 处 理 中 构造 各 种 数据 结构 ， 以 有 效 地 响应 用 例 的 请 求 。 上 典型 的 用 例 程序 会 构造 一 幅 图 ， 
将 图 传递 给 实现 了 某 个 算法 的 类 ( 作为 构造 函数 的 参数 ), 然后 调用 用 例 的 方法 来 获取 图 的 各 种 性 质 。 
作为 热身 ， 我 们 先 来 看 看 这 份 API， 人 参见 表 4.1.4。 


表 4.1.4 图 处 理 算法 的 API (热身 ) 


public class Search 








Search(Graph G, int s) 找到 和 起 点 s 连通 的 所 有 顶点 
boolean marked(int v) Vv 和 s 是 连通 的 吗 
int count() 与 s 连通 的 顶点 总 数 
我 们 用 起 点 (source ) 区 分 作为 参数 传递 给 构造 函数 的 顶点 与 图 中 的 其 他 顶点 。 在 这 份 API 中 ， 


构造 函数 的 任务 是 找到 图 中 与 起 点 连通 的 其 他 顶点 。 用 例 可 以 调用 marked0 方法 和 countQ 方 . 
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法 来 了 解 图 的 性 质 。 方 法 名 marked() 指 的 是 这 种 基本 算法 使 用 的 一 种 实现 方式 ， 本 章 中 会 一 直 
使 用 到 这 种 算法 : 在 图 中 从 起 点 开始 沿 着 路 径 到 达 其 他 项 点 并 标记 每 个 路 过 的 顶点。 后 面 框 注 中 
的 图 处 理 用 例 TestSearch 接受 由 命令 行 得 到 的 一 个 输入 流 的 名 称 和 起 始 结 点 的 编号 ， 从 输入 流 


中 读 取 一 幅 图 ( 使 用 Graph 的 第 二 个 构造 函数 ), 用 这 幅 图 和 给 定 的 起 始 结 点 创建 一 个 Search 对 象 ， 
然后 用 marked() 打印 出 图 中 和 起 点 连通 的 所 有 顶点 。 它 也 调用 了 count() 并 打印 了 图 是 否 是 连通 
的 ( 当 且 仅 当 搜索 能 够 标记 图 中 的 所 有 顶点 时 图 才 是 连通 的 ) 。 


% java TestSearch tinyG.txt 0 
0123456 
NOT connected 


public class TestSearch s 
% java TestSearch tinyG.txt 9 


public static void main(String[] args) 9 10 11 12 
{ NOT connected 


Graph G = new Graph(new In(args[0])); 


int s = Integer.parseInt(args[1]); tinyG. txt 
Search search = new Search(G, s); 3 
站 二 
for (Cint vy = 0; Vv < GVC); v++) 0 5 @ 
if (search.marked(v)) 4 3 
StdOut: printCVit, 3 [oe (7) (3) (6) 
Stdout .println0) ; Ph 
if (search.count() != G.VO) 54 (3) © (9 Go 
StdOut.printC"NOT "); 0 2 6 一 GD 
StdOut.println(C"connected'") ; Bd 
} 1 0 6 
7-8 
9 11 
图 处 理 的 用 例 (热身 ) 5 3 


我 们 已 经 见 过 Search API 的 一 种 实现 : 第 1 章 中 的 union-find 算法 。 它 的 构造 函数 会 创建 一 
个 UF 对 象 ， 对 图 中 的 每 一 条 边 进行 一 次 union() 操作 并 调用 connected(s,v) 来 实现 marked(v) 
方法 。 实 现 count0) 方法 需要 一 个 加 权 的 UF 实现 并 扩展 它 的 API， 以 便 使 用 countQ 〇 方法 返回 
wt[findCv)] (请 见 练习 4.1.8 ) 。 这 种 实现 简单 而 高 效 ， 但 下 面 我 
们 要 学 习 的 实现 还 可 以 更 进一步 。 它 基于 的 是 深度 优先 搜索 ( DFS ) 迷宫 
的 。 这 是 一 种 重要 的 递归 方法 ， 它 会 沿 着 图 的 边 寻找 和 起 点 连通 的 





RS 
所 有 顶点 。 深 度 优先 搜索 是 本 章 中 将 学 习 的 好 几 种 关于 图 的 算法 的 Ed 
基础 。 
路 口 
4.1.3 深度 优先 搜索 通道 
我 们 常常 通过 系统 地 检查 每 一 个 顶点 和 每 一 条 边 来 获取 图 的 各 @) 


种 性 质 。 要 得 到 图 的 一 些 简 单 性 质 ( 比如 ， 计 算 所 有 顶点 的 度数 ) We 
很 容易 ， 只 要 检查 每 一 条 边 即 可 ( 任意 顺序 ) 。 但 图 的 许多 其 他 性 | | 
质 和 路 径 有 关 ， 因 此 一 种 很 自然 的 想法 是 沿 着 图 的 边 从 一 个 顶点 移 (5 1 

动 到 另 一 个 顶点 。 尽 管 存在 各 种 各 样 的 处 理 策略 ,但 后 面 将 要 学 习 项 点 边 
的 几乎 所 有 与 图 有 关 的 算法 都 使 用 了 这 个 简单 的 抽象 模型 ,其 中 最 。 ”图 4.1.11 等 价 的 迷宫 模型 
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简单 的 就 是 下 面 介绍 的 这 种 经 典 的 方法 。 
4.1.3.1 走 迷 宫 

思考 图 的 搜索 过 程 的 一 种 有 益 的 方法 是 ， 考 虑 另 一 个 和 它 等 
价 但 历史 悠久 而 又 特别 的 问题 一 -在 一 个 由 各 种 通道 和 路 口 组 成 NA\ 
的 迷宫 中 找到 出 路 。 有 些 迷宫 的 规则 很 简单 ， 但 大 多 数 迷宫 则 需 
要 很 复杂 的 策略 才 行 。 用 迷宫 代替 图 、 通 道 代 替 边 、 路 口 代替 顶 


点 仅仅 只 是 一 些 文字 游戏 ， 但 就 目前 来 说 ， 这 么 做 可 以 帮助 我 们 Se 
直观 地 认识 问题 ， 参 见 图 4.1.11。 探 索 迷 富 而 不 迷路 的 一 种 古老 [| 


办 法 ( 至 少 可 以 追溯 到 趟 修 斯 和 米 诺 陶 的 传说 ) 叫 做 Tremaux 搜索 ， 
参见 图 4.1.12。 要 探索 迷宫 中 的 所 有 通道 ， 我 们 需要 : 

口 选择 一 条 没有 标记 过 的 通道 ， 在 你 走 过 的 路 上 铺 一 条 SS 

绳子 ; Edd 

口 标记 所 有 你 第 一 次 路 过 的 路 口 和 通道 ; 

口 当 来 到 一 个 标记 过 的 路 口 时 ( 用 绳子 ) 回 退 到 上 个 路 口 ; 

口 当 回 退 到 的 路 口 已 没有 可 走 的 通道 时 继续 回 退 。 

绳子 可 以 保证 你 总 能 找到 一 条 出 路 ， 标 记 则 能 保证 你 不 会 
两 次 经 过 同一 条 通道 或 者 同一 个 路 口 。 要 知道 是 否 完全 探索 了 
整个 迷宫 需要 的 证 明 更 复杂 ， 只 有 用 图 搜索 才能 够 更 好 地 处 理 
问题 。Tremaux 搜索 很 直接 ， 但 它 与 完全 搜索 一 张 图 仍然 稍 有 
不 同 ， 因 此 我 们 接 下 来 看 看 图 的 搜索 方法 。 


public class DepthFirstSearch 
{ 
private boolean[] marked; 
private int count; 


public DepthFirstSearch(Graph G, int s) 图 4.1.12” ”Tremaux 搜 索 ( 另 见 彩 插 ) 
. 





marked = new boolean[G.VO]; 
dfs(G, s); 
} 
private void dfs(Graph G, int v) 
{ 
marked[v] = true; 起 点 被 标记 过 的 
Count++; 
for (int w : G.adj(v)) 
if (!marked[w]) dfs(G, w); 
: 


public boolean marked(int w) 
{ return marked[w]; } 


public int countO 
{ return count; } 


深度 优先 搜索 
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4.1.3.2 ”热身 

搜索 连通 图 的 经 典 递 归 算 法 (遍历 所 有 的 顶点 和 边 ) 和 Tremaux 搜索 类 似 , 但 描述 起 来 更 简单 。 
要 搜索 一 幅 图 ， 只 需 用 一 个 递归 方法 来 遍历 所 有 项 点。 在 访问 其 中 一 个 顶点 时 : 

口 将 它 标记 为 已 访问 ; 

口 递归 地 访问 它 的 所 有 没有 被 标记 过 的 邻居 顶点 。 

这 种 方法 称 为 深度 优先 搜索 (DFS ) 。Search API 的 一 种 实现 使 用 了 这 种 方法 ， 如 深度 优先 
搜索 框 注 所 示 。 它 使 用 一 个 boolean 数组 来 记录 和 起 点 连通 的 所 有 项 点。 递归 方法 会 标记 给 定 的 顶 
点 并 调用 自己 来 访问 该 顶点 的 相 邻 顶点 列表 中 所 有 没有 被 标记 过 的 顶点 。 如 果 图 是 连通 的 ， 每 个 邻 
接 链 表 中 的 元 素 都 会 被 检查 到 。 


命题 A。 深 度 优先 搜索 标记 与 起 点 连通 的 所 有 顶点 所 需 的 时 间 和 顶点 的 度数 之 和 成 正比 。 


证 明 。 首 先 ， 我 们 要 证 明 这 个 算法 能 够 标记 与 起 点 s 连通 的 所 有 顶点 ( 且 不 会 标记 其 他 顶点 ) 。 
因为 算法 仅 通过 边 来 寻找 顶点 ， 所 以 每 个 被 标记 过 的 顶点 都 与 s 连通 。 现 在 ， 假 设 某 个 没有 被 
标记 过 的 顶点 w 与 s 连 通 。 因 为 s 本 身 是 被 标记 过 的 ， 由 s 到 w 的 任意 一 条 路 径 中 至 少 有 一 条 
边 连接 的 两 个 顶点 分 别 是 被 标记 过 的 和 没有 被 标记 过 的 ， 例 如 v-xs 根据 算法 ， 在 标记 了 Yv 之 
后 必然 会 发 现 x， 因 此 这 样 的 边 是 不 存在 的 。 前 后 矛盾 。 每 个 顶点 都 只 会 被 访问 一 次 保证 了 时 
间 上 限 ( 检查 标记 的 耗 时 和 和 度数 成 正比 ) 。 


4.1.3.3 单 向 通道 
代码 中 方法 的 调用 和 返回 机 制 对 应 迷宫 中 绳子 。 tinyCG. txt 标准 画 法 
的 作用 : 当 已 经 处 理 过 依附 于 一 个 顶点 的 所 有 边 时 
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(搜索 了 路 口 连接 的 所 有 通道 ) ， 我 们 就 只 能 “ 返 a | 

回 ” (retum， 两 者 的 意义 相同 ) 。 为 了 更 好 地 与 迷 2 4 Gy 一 到 六 一 从 

宫 的 Tremaux 搜索 对 应 起 来 ， 我 们 可 以 想象 一 座 完 志 ， pe 

全 由 单 向 通道 构造 的 迷宫 ( 每 个 方向 都 有 一 个 通道 ) 。 01 个 本 

和 在 迷宫 中 会 经 过 一 条 通道 两 次 ( 方向 不 同 ) 一 样 ， 3 5 

在 图 中 我 们 也 会 路 过 每 条 边 两 次 ( 在 它 的 两 个 端点 党 局 2 

各 一 次 ) 。 在 Tremaux 搜索 中 ， 要 么 是 第 一 次 访问 GO 一 GE- 一 

一 条 边 , 要 么 是 沿 着 它 从 一 个 被 标记 过 的 顶点 退回 。 邻接 表 

在 无 向 图 的 深度 优先 搜索 中 ， 在 碰 到 边 v-w 时 ， 要 2}. 1 [5 

么 进行 递归 调用 (w 没 有 被 标记 过 ) ， 要 么 跳 过 这 

条 边 〈w 已 经 被 标记 过 ) 。 第 二 次 从 另 一 个 方向 w-v adj[] 加 加 

遇 到 这 条 边 时 ， 总 是 会 忽略 它 ， 因 为 它 的 另 一 端 v 1 ~ 34 

肯定 已 经 被 访问 过 了 ( 在 第 一 次 遇 到 这 条 边 的 时 候 )。 

4.1.3.4 ”跟踪 深度 优先 搜索 3 nine CE 
通常 ， 理 解 算法 的 最 好 方法 是 在 一 个 简单 的 例 4 >~[3-[2] 

子 中 跟踪 它 的 行为 。 深 度 优先 算法 尤其 是 这 样 。 在 2 

跟踪 它 的 轨迹 时 ， 首 先 要 注意 的 是 ， 算 法 遍历 边 和 








访问 顶点 的 顺序 与 图 的 表示 是 有 关 的 ， 而 不 只 是 与 图 1 一 幅 连 通 的 无 向 图 


图 的 结构 或 是 算法 有 关 。 因 为 深度 优先 
搜索 只 会 访问 和 起 点 连通 的 项 点， 所 以 
使 用 图 4.1.13 所 示 的 一 幅 小 型 连通 图 为 
例 。 在 示例 中 ， 顶 点 2 是 顶点 0 之 后 第 
一 个 被 访问 的 顶点 ， 因 为 它 正 好 是 0 的 
邻接 表 的 第 一 个 元 素 。 要 注意 的 第 二 点 
是 ， 如 前 文 所 述 ， 深 度 优先 搜索 中 每 条 
边 都 会 被 访问 两 次 ， 且 在 第 二 次 时 总 会 
发 现 这 个 顶点 已 经 被 标记 过 。 这 意味 着 
深度 优先 搜索 的 轨迹 可 能 会 比 你 想象 的 
长 一 倍 ! 示例 图 仅 含 有 8 条 边 ， 但 需 
要 追踪 算法 在 邻接 表 的 16 个 元 素 上 的 
操作 。 
4.1.3.5 深度 优先 搜索 的 详细 轨迹 
图 4.1.14 显示 的 是 示例 中 每 个 顶点 
被 标记 后 算法 使 用 的 数据 结构 ， 起 点 为 
顶点 0。 查 找 开 始 于 构造 函数 调用 递归 
的 dfs(Q 来 标记 和 访问 顶点 0， 后续 处 
理 如 下 所 述 。 
口 因为 顶点 2 是 0 的 邻接 表 的 第 一 
个 元 素 且 没有 被 标记 过 ，dfs 0) 
递归 调用 自己 来 标记 并 访问 顶点 
2 (效果 是 系统 会 将 顶点 0 和 0 
的 邻接 表 的 当前 位 置 压 人 栈 中 ) 。 
口 现在 ， 顶 点 0 是 2 的 邻接 表 的 第 
一 个 元 素 且 已 经 被 标记 过 了 ， 因 
此 dfs() 跳 过 了 它 。 接 下 来 ， 顶 
点 1 是 2 的 邻接 表 的 第 二 个 元 素 
且 没 有 被 标记 ，dfs() 递归 调用 
自己 来 标记 并 访问 顶点 1。 
口 对 顶点 1 的 访问 和 前 面 有 所 不 同 : 
因为 它 的 邻接 表 中 的 所 有 顶点 (0 
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marked[] adj[] 





dfs(0) 机 和 到 二 
1 1102 
2 | 2 0134 
3 | 31542 
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3 gf 写 罗 学 
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1 完成 4 413 2 
5 5130 
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2i4 汗 和 2 3 4 
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4 4 32 
5 | 5130 
dfs(5) DT 位 下 鹤 开 当 
检查 3 未 二 “性 
检查 0 2iT 2 4 
2 Bi ls 
5 完成 4 | 4132 
5IT 5130 
fs C4) 全 
检查 3 六 十 于 。 注 
检查 2 2iT 2 4 
4 守 3 和 ”3 证 交 
2 
检查 5T 5 
3 完成 
检查 4 
2 完成 
检查 1 
检查 5 
0 完成 


图 4.1.14 使 用 深度 优先 搜索 的 轨迹 ， 寻 找 所 有 和 顶点 0 
连通 的 顶点 〈 另 见 彩 插 ) 


和 2 ) 都 已 经 被 标记 过 了 ， 因 此 不 需要 再 进行 递归 ， 方 法 从 dfs(1) 中 返回 。 下 一 条 被 检查 的 
边 是 2-3 (在 2 的 邻接 表 中 顶点 1 之 后 的 项 点 是 3) ， 因 此 dfsQ 递归 调用 自己 来 标记 并 访 


问 项 点 3。 


口 顶点 5 是 3 的 邻接 表 的 第 一 个 元 素 且 没有 被 标记 ， 因 此 dfs 0) 递归 调用 自己 来 标记 并 访问 


顶点 5。 


口 顶点 5 的 邻接 表 中 的 所 有 顶点 (3 和 0 ) 都 已 经 被 标记 过 了 ， 因 此 不 需要 再 进行 递归 。 
口 顶点 4 是 3 的 邻接 表 的 下 一 个 元 素 且 没有 被 标记 过 ， 因 此 dfsQ 〇 递归 调用 自己 来 标记 并 访 
问 项 点 4。 这 是 最 后 一 个 需要 被 标记 的 顶点 。 
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532 口 在 顶点 4 被 标记 了 之 后 ，dfs ( ) 会 检查 它 的 邻接 表 , 然后 再 检查 3 的 邻接 表 ,， 然后 是 2 的 邻接 表 ， 
533 然后 是 0 的 ， 最 后 发 现 不 需要 再 进行 任何 递归 调用 ， 因 为 所 有 的 顶点 都 已 经 被 标记 过 了 。 
这 种 简单 的 递归 模式 只 是 一 个 开始 一 一 深度 优先 搜索 能 够 有 效 处 理 许 多 和 图 有 关 的 任务 。 例 如 ， 
本 节 中 ， 我们 已 经 可 以 用 深度 优先 搜索 来 解决 在 第 1 章 首次 提 到 的 一 个 问题 。 
连通 性 。 给 定 一 幅 图 ， 回 答 “ 两 个 给 定 的 顶点 是 否 连 通 ? ”或 者 “图 中 有 多 少 个 连通 子 图 ? ” 
等 类 似 问题 。 
我 们 可 以 轻易 地 用 处 理 图 问题 的 标准 设计 模式 给 出 这 些 问 题 的 答案 ， 还 要 将 这 些 解 答 与 在 1.5 
节 中 学 习 的 union-find 算法 进行 比较 。 
问题 “两 个 给 定 的 顶点 是 否 连 通 ? ”等 价 于 “两 个 给 定 的 项 点 之 间 是 否 存 在 一 条 路 径 ? ”， 也 
许 也 可 以 叫做 路 径 检测 问题 。 但 是 ， 在 1.5 节 学 习 的 union-find 算法 的 数据 结构 并 不 能 解决 找 出 这 
样 一 条 路 径 的 问题 。 深度 优先 搜索 是 我 们 已 经 学 习 过 的 几 种 方法 中 第 一 个 能 够 解决 这 个 问题 的 算法 。 
它 能 够 解决 的 另 一 个 问题 如 下 所 述 。 
单 点 路 径 。 给 定 一 幅 图 和 一 个 起 点 s, 回答 “从 s 到 给 定 目的 顶点 是 否 存在 一 条 路 径 ? 如 果 有 ， 
找 出 这 条 路 径 。” 等 类 似 问 题 。 
深度 优先 搜索 算法 之 所 以 极为 简单 ， 是 因为 它 所 基于 的 概念 为 人 所 熟知 并 且 非 常 容 易 实现 。 事 
实 上 ， 它 是 一 个 既 小 巧 而 又 强大 的 算法 ， 研 究 人 员 用 它 解决 了 无 数 困 难 的 问题 。 上 述 两 个 问题 只 是 
534| 我们 将 要 研究 的 许多 问题 的 开始 。 


4.1.4 寻找 路 径 
单 点 路 径 问 题 在 图 的 处 理 领 域 中 十 分 重要 。 根 据 标准 设计 模式 ， 我 们 将 使 用 如 下 API ( 请 见 
表 4.1.5) 。 





表 4.1.5 路 径 的 API 


public class Paths 


Paths(Graph G, int s) 在 G 中 找 出 所 有 起 点 为 s 的 路 径 
boolean hasPathTo(int v) 是 否 存 在 从 s 到 v 的 路 径 
Iterable<Integer> pathTo(int v) s 到 v 的 路 径 ， 如 果 不 存在 则 返回 nu11 


构造 函数 接受 一 个 起 点 s 作为 参数 ， 


计算 s 到 与 s 连通 的 每 个 顶点 之 间 的 路 public static void main(String[] args) 
A ks = Ny 一 : { 
径 。 在 为 起 点 s 创建 了 Paths 对 象 后 ， Graph G = new Graph(new In(args[0])); 
用 例 可 以 调用 pathToQ 实例 方法 来 遍历 int s = Integer.parseInt(args[1]); 
从 s 到 任意 和 s 连通 的 顶点 的 路 径 上 的 Paths search = new Paths(G, 5); 
= for (int v = 0; VvV < G.VO); v++) 
所 有 项 点。 现在 暂时 查找 所 有 路 径 ， 以 中 
后 会 实现 只 查找 具有 某 些 属性 的 路 径 。 StdOut. printCsie "to ty 寺 9 


if (search.hasPathTo(v)) 
for (int x : search.pathTo(v)) 
% java Paths tinyCG.txt 0 if (x == s) StdOut.print(x); 
0 to 0: 0 else StdOut.print("-" + x); 
0 to 1: 0-2-1 StdOut.print1nO; 
0 to 2: 0-2 } 
0 to 3: 0-2- } 
0-2- 
0=2= 


3 
0 to 4: 3-4 
3-5 


| Paths 实 现 的 测试 用 例 
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上 一 页 右 下 角 框 注 中 的 用 例 从 输入 流 中 读 取 了 一 个 图 并 从 命令 行 得 到 一 个 起 点 ， 然 后 打印 出 从 起 点 
到 与 它 连通 的 每 个 顶点 之 间 的 一 条 路 径 。 
4.1.4.1 实现 

算法 4.1 基于 深度 优先 搜索 实现 了 Paths。 它 扩展 了 4.1.3.2 节 中 的 热身 代码 DepthFirs- 
tSearch， 添 加 了 一 个 实例 变量 edgeTo[] 整 型 数组 来 起 到 Tremaux 搜索 中 绳子 的 作用 。 这 个 数组 
可 以 找到 从 每 个 与 s 连通 的 顶点 回 到 s 的 路 径 。 它 会 记 住 每 个 顶点 到 起 点 的 路 径 ， 而 不 是 记录 当前 
顶点 到 起 点 的 路 径 。 为 了 做 到 这 一 点 ， 在 由 边 v-w 第 一 次 访问 任意 w 时 ,将 edgeTo[w] 设 为 v 来 
记 住 这 条 路 径 。 换 名 话说 ，v-w 是 从 s 到 w 的 路 径 上 的 最 后 一 条 已 知 的 边 。 这 样 ， 搜 索 的 结果 是 一 
棵 以 起 点 为 根 结 点 的 树 ，edgeTo[] 是 一 棵 由 父 链 接 表示 的 树 。 算 法 4.1 的 代码 的 右 侧 是 一 个 小 示 
例 。 要 找 出 s 到 任意 顶点 v 的 路 径 ,算法 4.1 实现 的 pathTo0Q 方法 用 变量 x 遍历 整 棵 树 ， 将 x 设 
为 edgeTo[x] ， 就 像 1.5 节 中 的 union-find 算法 一 样 ， 然 后 在 到 达 s 之 前 ， 将 遇 到 的 所 有 顶点 都 压 
入 栈 中 。 将 这 个 栈 返回 为 一 个 Iterable 对 象 帮助 用 例 遍 历 s 到 v 的 路 径 。 


算法 4.1 使 用 深度 优先 搜索 查找 图 中 的 路 径 


public class DepthFirstPaths 


{ 
private boolean[] marked; // 这 个 顶点 上 调用 过 dfs() 了 吗 ? 
private int[] edgeTo; // 从 起 点 到 一 个 顶点 的 已 知 路 径 上 的 最 后 一 个 顶点 
private final int s; // 起 点 


public DepthFirstPaths(Graph G, int s) 
{ 

marked = new booleanfG.VC)]; 

edgeTo = new int[G.VO]; 

this.s = $s: 

dfs(G, s); 
} 


private void dfs(Graph G，int v) (0) (2) edgeTol] @) 


marked[v] = true; 


for (int Ww : G.adj(v)) 和 
路 


GO 


if (Cimarked[w]) (5) 
{ 


edgeTo[w] = v; 
dfs(G, w); 
} 


AWNPO 


OQ 
@ 


ONuwu|x 


} 


public boolean hasPathTo(Cint v) 
{ return marked[v]; } 


pathTo(5) 的 计算 轨迹 


public Iterable<Integer> pathTo(int v) 


if (!hasPathTo(v)) return null; 
Stack<Integer> path = new Stack<Integer>(); 
for (int x = v; x l= s; Xx = edgeTo[x]) 
path .push(x); 
path.push(s); 
return path; 
} 
} 


这 上段 Graph 的 用 例 使 用 了 深度 优先 搜索 ， 以 找 出 图 中 从 给 定 的 起 点 s 到 它 连通 的 所 有 顶点 的 路 径 。 
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来 自 DepthFirstSearch (4.1.3.2 节 ) 的 代码 均 为 灰色 。 为 了 保存 到 达 每 个 顶点 的 已 知 路 径 ， 这 段 代码 
使 用 了 一 个 以 顶点 编号 为 索引 的 数组 edgeTo[] ，edgeTo[w]=v 表示 v-w 是 第 一 次 访问 w 时 经 过 的 边 。 
edgeTo[] 数组 是 一 棵 用 父 链接 表示 的 以 s 为 根 且 含有 所 有 与 s 连通 的 顶点 的 树 。 


ua 
LUD 
CN 


4.1.4.2 ”详细 轨迹 
图 4.1.15 显示 的 是 示例 中 每 个 顶点 被 标记 edgeTo[] 

后 edgeTo[] 的 内 容 ， 起 点 为 顶点 0。marked[] 25%) 

和 adj[] 的 内 容 与 4.1.3.5 节 中 的 DepthFirst- 

Search 的 轨迹 相同 ， 递 归 调 用 和 边 检查 的 详细 

描述 也 完全 一 样 ， 这 里 不 再 米 述 。 深 度 优先 搜索 

向 edgeTo[] 数组 中 顺序 添加 了 0-2、2-1、2-3、 dfs(2) 

3-5 和 3-4。 这 些 边 构成 了 一 棵 以 起 点 为 根 结 点 oY 





的 树 并 提供 了 pathToQ 方法 所 需 的 信息 ， 使 得 
调用 者 可 以 按照 前 文 所 述 的 方法 找到 从 0 到 顶点 
1、2、3、4、5 的 路 径 。 | es 
DepthFirstPaths 与 DepthFirstSearch | 
的 构造 函数 仅 有 几 条 赋值 语句 不 同 ， 因 此 4.1.3.2 1 完成 
节 中 的 命题 A 仍然 适用 。 男 外 , 我们 还 有 以 下 命题 。 
dfs(3) 
命题 人 ( 续 ) 。 使 用 深度 优先 搜索 得 到 从 给 3212 
定 起 点 到 任意 标记 顶点 的 路 径 所 需 的 时 间 与 a 
路 径 的 长 度 成 正比 。 
证 明 。 根 据 对 已 经 访问 过 的 顶点 数量 的 归纳 | ， 
可 得 ，DepthFirstPaths 中 的 edgeTo[] 数 检查 0 3 0 
组 表示 了 一 棵 以 起 点 为 根 结 点 的 树 。path- oy + 出 
To() 方法 构造 路 径 所 需 的 时 间 和 路径 的 长 度 
成 正比 。 | | afsC4) 
537 | 检查 3 112 
上 3 12 
4.1.5 ”广度 优先 搜索 1 5 3 
深度 优先 搜索 得 到 的 路 径 不 仅 取决 于 图 的 结 
构 ， 还 取决 于 图 的 表示 和 递归 调用 的 性 质 。 我 们 检查 1 
很 自然 地 还 经 常 对 下 面 这 些 问题 感 兴趣 。 A 


单 点 最 短路 径 。 给 定 一 幅 图 和 一 个 起 点 s， 
回答 “从 s 到 给 定 目 的 顶点 Vv 是 否 存 在 一 条 路 径 ? 
如 果 有 , 找 出 其 中 最 短 的 那 条 ( 所 含 边 数 最 少 ) ,， 
等 类 似 问 题 。 

解决 这 个 问题 的 经 典 方法 叫做 广度 优先 搜索 。 图 41.15 使 用 深度 优先 搜索 的 轨迹 ， 寻 找 所 有 
( BFS)。 它 也 是 许多 图 算法 的 基石 ， 因 此 我 们 会 A 
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在 本 节 中 详细 学 习 。 深 度 优先 搜索 在 这 个 问题 上 没有 什么 作为 ， 因 为 它 追 历 。 [RR 过 
整个 图 的 顺序 和 找 出 最 短路 径 的 目标 没有 任何 关系 。 相 比 之 下 ， 广 度 优先 搜 | 
索 正 是 为 了 这 个 目标 才 出 现 的 。 要 找到 从 s 到 v 的 最 短路 径 ， 从 s 开始 ， 在 | 
所 有 由 一 条 边 就 可 以 到 达 的 顶点 中 寻找 v， 如 果 找 不 到 我 们 就 继续 在 与 s 距 
离 两 条 边 的 所 有 顶点 中 查找 v， 如 此 一 直 进行 。 深 度 优先 搜索 就 好 像 是 一 个。 【各 双 
人 在 走 迷 宫 ， 广 度 优先 搜索 则 好 像 是 一 组 人 在 一 起 朝 各 个 方向 走 这 座 迷 宫 ， NA 
每 个 人 都 有 自己 的 绳子 。 当 出 现 新 的 又 路 时 ， 可 以 假设 一 个 探索 者 可 以 分 弄 
为 更 多 的 人 来 搜索 它们 ， 当 两 个 探索 者 相遇 时 ,会合 二 为 一 ( 并 继续 使 用 先 
到 达 者 的 绳子 ) ， 参 见 图 4.1.16。 

在 程序 中 ， 在 搜索 一 幅 图 时 遇 到 有 多 条 边 需 要 遍历 的 情况 时 ， 我 们 会 
选择 其 中 一 条 并 将 其 他 通道 留 到 以 后 再 继续 搜索 。 在 深度 优先 搜索 中 ,我 们 
用 了 一 个 可 以 下 压 的 栈 ( 这 是 由 系统 管理 的 ， 以 支持 递归 搜索 方法 ) 。 使 用 





LIFO (后 进 先 出 ) 的 规则 来 描述 压 栈 和 走 迷 富 时 先 探索 相 邻 的 通道 类 似 。 从 图 41.16 i 
有 待 搜索 的 通道 中 选择 最 晚 遇 到 过 的 那 条 。 在 广度 优先 搜索 中 ， 我 们 希望 按 言 搜 索 


照 与 起 点 的 距离 的 顺序 来 遍历 所 有 项 点， 看 起 来 这 种 顺序 很 容易 实现 : 使 用 
(FIFO， 先 进 先 出 ) 队列 来 代替 栈 (LIFO， 后 进 先 出 ) 即 可 。 我 们 将 从 有 待 搜索 的 通道 中 选择 最 
早 遇 到 的 那 条 。 

实现 

算法 4.2 实现 了 广度 优先 搜索 算法 。 它 使 用 了 一 个 队列 来 保存 所 有 已 经 被 标记 过 但 其 邻接 表 还 
未 被 检查 过 的 顶点 。 先 将 起 点 加 入 队列 ， 然 后 重复 以 下 步骤 直到 队列 为 空 : 

口 取 队 列 中 的 下 一 个 顶点 v 并 标记 它 ; 

口 将 与 v 相 邻 的 所 有 未 被 标记 过 的 项 点 加 入 队列 。 538 

算法 4.2 中 的 bfs (0) 方法 不 是 递归 的 。 不 像 递归 中 隐 式 使 用 的 栈 ， 它 显 式 地 使 用 了 一 个 队列 。 
和 深度 优先 搜索 一 样 , 它 的 结果 也 是 一 个 数组 edgeTo[] , 也 是 一 棵 用 父 链接 表示 的 根 结 点 为 s 的 树 。 
它 表 示 了 s 到 每 个 与 s 连通 的 顶点 的 最 短路 径 。 用 例 也 可 以 使 用 算法 4.1 中 为 深度 优先 搜索 实现 的 
相同 的 pathTo() 方法 得 到 这 些 路 径 。 


图 4.1.17 和 图 4.1.18 显示 了 用 广度 优先 搜索 
加 a [] 


处 理 样 图 时 ,算法 使 用 的 数据 结构 在 每 次 循环 的 。 ”QQ@ "| ， Q 
和 迭代 开始 时 的 内 容 。 首 先 ， 顶 点 0 被 加 入 队列 ， 个 过 
然后 循环 开始 搜索 。 OO 4 | 由 名 
口 从 队列 中 删 去 顶点 0 并 将 它 的 相 邻 顶点 2、 
和 多 类 入 队列 中 ,类 当 它们 掉 直 到 光 它 。 四 全 全 证 
们 在 edgeTo[] 中 的 值 设 为 0。 1 
口 从 队列 中 删 去 顶点 2 并 检查 它 的 相 邻 顶点 0 和 1， 发 现 两 者 都 已 经 被 标记 。 将 相 邻 的 顶点 3 
和 4 加 入 队列 ， 标 记 它们 并 分 别 将 它们 在 edgeTo[] 中 的 值 设 为 2。 
口 从 队列 中 删 去 顶点 1 并 检查 它 的 相 邻 项 点 0 和 2， 发 现 它们 都 已 经 被 标记 了 。 
口 从 队列 中 删 去 顶点 5 并 检查 它 的 相 邻 顶点 3 和 0， 发 现 它们 都 已 经 被 标记 了 。 
口 从 队列 中 删 去 顶点 3 并 检查 它 的 相 邻 顶 点 5、4 和 2， 发 现 它们 都 已 经 被 标记 了 。 


queue marked[] edgeTo[] adj 
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图 4.1.18 使 用 广度 优先 搜索 的 轨迹 ， 寻 找 所 有 起 点 为 0 的 路 径 〈 另 见 


算法 4.2 使 用 广度 优先 搜索 查找 图 中 的 路 径 





public class BreadthFirstPaths 


{ 


private boolean[] marked; // 到 达 该 顶点 的 最 短路 径 已 知 吗 ? 
private int[] edgeTo; // 到 达 该 顶点 的 已 知 路 径 上 的 最 后 一 个 顶点 
private final int s; // 起 点 


public BreadthFirstPaths(Graph G, int s) 
{ 

marked = new boolean[G.VO]; 

edgeTo = new int[G.VO]; 

this.s = s; 

bfs(G, s); 


bp 
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private void bfs(Graph G, int s) 


{ 
Queue<Integer> queue = new Queue<Integer>(); 
marked[s] = true; // 标记 起 点 
queue.enqueue(s); // 将 它 加 入 队列 
while (!queue.isEmpty()) 
本 
int v = queue.dequeue(); // 从 队列 中 删 去 下 一 顶点 
for (int w : G.adj(v)) 
if (!marked[w]) // 对 于 每 个 未 被 标记 的 相 邻 顶点 
{ 
edgeTo[w] = v; // 保存 最 短路 径 的 最 后 一 条 边 
marked[w] = true; // 标记 它 ， 因 为 最 短路 径 已 知 
queue.enqueue(w); // 并 将 它 添加 到 队列 中 
} 1 % java BreadthFirstPaths 
$Y tinyCG.txt 0 
0 ro 9 
public boolean hasPathToCint v) 0 to 1: 0-1 
{ return marked[v]; } 0 to 2: 0-2 
public Iterable<Integer> pathTo(int v) 和 nn, ek 
// 和 深度 优先 搜索 中 的 实现 相同 ( 请 见 算法 4.1 ) i 
Qto 53 0-5 
} 
这 段 Graph 的 用 例 使 用 了 广度 优先 搜索 ， 以 找 出 图 中 从 构造 函数 得 到 的 起 点 s 到 与 其 他 所 有 顶点 的 
最 短路 径 。bfs () 方法 会 标记 所 有 与 s 连通 的 顶点 ， 因 此 用 例 可 以 调用 hasPathToQ 来 判定 一 个 顶点 与 


s 是 否 连 通 并 使 用 pathTo() 得 到 一 条 从 s 到 v 的 路 径 ， 确 保 没 有 其 他 从 s 到 v 的 路 径 所 含 的 边 比 这 条 路 


了 
径 更 少 。 


对 于 这 个 例子 来 说 ，edgeTo[] 数组 在 第 二 步 之 后 就 已 经 完成 了 。 和 深度 优先 搜索 一 样 ， 一 且 
所 有 的 顶点 都 已 经 被 标记 ， 余 下 的 计算 工作 就 只 是 在 检查 连接 到 各 个 已 被 标记 的 顶点 的 边 而 已 。 


命题 B。 对 于 从 s 可 达 的 任意 顶点 v， 广 度 优 先 搜索 都 能 找到 一 条 从 s 到 v 的 最 短路 径 (没有 
其 他 从 s 到 v 的 路 径 所 含 的 边 比 这 条 路 径 更 少 ) 。 


证 明 。 由 归纳 易 得 队列 总 是 包含 零 个 或 多 个 到 起 点 的 距离 为 大 的 顶点 ， 之 后 是 零 个 或 多 个 到 起 
点 的 距离 为 ktl 的 顶点 ， 其 中 上 为 整数 ， 起 始 值 为 0。 这 意味 着 顶点 是 按照 它们 和 s 的 距离 的 
顺序 加 入 或 者 离开 队列 的 。 从 顶点 v 加 入 队列 到 它 离开 队列 之 前 ,不 可 能 找 出 到 v 的 更 短 的 路 径 ， 
而 在 v 离开 队列 之 后 发 现 的 所 有 能 够 到 达 v 的 路 径 都 不 可 能 短 于 v 在 树 中 的 路 径 长 度 。 


命题 B( 续 ) 。 广 度 优先 搜索 所 需 的 时 间 在 最 坏 情况 下 和 VtE 成 正比 。 


证 明 。 和 命题 A 一 样 (请 见 4.1.3.2 节 ) ,广度 优先 搜索 标记 所 有 与 s 连通 的 顶点 所 需 的 时 间 也 
与 它们 的 度数 之 和 成 正比 。 如 果 图 是 连通 的 ， 这 个 和 就 是 所 有 顶点 的 度数 之 和 ， 也 就 是 2E。 


注意 ， 我 们 也 可 以 用 广度 优先 搜索 来 实现 已 经 用 深度 优先 搜索 实现 的 Search API， 因 为 它 检 
查 所 有 与 起 点 连通 的 顶点 和 边 的 方法 只 取决 于 查找 的 能 力 。 
我 们 在 本 童 开头 说 过 ， 深 度 优先 搜索 和 广度 优先 搜索 是 我 们 首先 学 习 的 几 种 通用 的 图 搜索 的 算 
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法 之 一 。 在 搜索 中 我 们 都 会 先 将 
起 点 存 人 数据 结构 中 ， 然 后 重复 
以 下 步骤 直到 数据 结构 被 清空 : 

口 取 其 中 的 下 一 个 顶点 并 标 

记 它 ; 
口 将 v 的 所 有 相 邻 而 又 未 被 
标记 的 顶点 加 入 数据 结构 。 

这 两 个 算法 的 不 同 之 处 仅 在 
于 从 数据 结构 中 获取 下 一 个 顶点 
的 规则 (对 于 广度 优先 搜索 来 说 
是 最 早 加 入 的 顶点 ， 对 于 深度 
优先 搜索 来 说 是 最 晚 加 入 的 顶 
点 ) 。 这 种 差异 得 到 了 处 理 图 的 
两 种 完全 不 同 的 视角 ， 尽 管 无 论 
使 用 哪 种 规则 ， 所 有 与 起 点 连通 
的 顶点 和 边 都 会 被 检查 到 。 

图 4.1.19 和 图 4.1.20 显 示 
了 深度 优先 搜索 和 广度 优先 搜索 
处 理 样 图 mediumG.txt 的 过 程 ， 
它们 清晰 地 展示 了 两 种 方法 中 搜 
索 路 径 的 不 同 。 深 度 优先 搜索 不 
断 深 入 图 中 并 在 栈 中 保存 了 所 有 
分 叉 的 顶点 ; 广度 优先 搜索 则 像 
书面 一 般 扫 描 图 ， 用 一 个 队列 保 
存 访 问 过 的 最 前 端的 顶点 。 深 度 
优先 搜索 探索 一 幅 图 的 方式 是 寻 
找 离 起 点 更 远 的 顶点 ， 只 在 碰 到 
死胡同 时 才 访 问 近 处 的 顶点 ; 广 
度 优先 搜索 则 会 首先 覆盖 起 点 附 
近 的 顶点 ， 只 在 临近 的 所 有 顶点 
都 被 访问 了 之 后 才 向 前 进 。 深 度 
优先 搜索 的 路 径 通 常 较 长 而 且 曲 
折 ， 广 度 优先 搜索 的 路 径 则 短 而 
直接 。 根 据 应 用 的 不 同 ， 所 需要 
的 性 质 也 会 有 所 不 同 (也 许 路 径 
的 性 质 也 会 变 得 无 关 紧要 ) 。 在 
4.4 节 中 ， 我 们 会 学 习 Paths 的 
API 的 其 他 实现 来 寻找 有 特定 属 
性 的 路 径 。 


20% 20% 
40% 40% 
60% 60% 
80% 80% 





图 4.1.19 使 用 深度 优先 搜索 查 。 图 4.1.20 使 用 广度 优先 搜索 查找 
找 路 径 (250 个 顶点 ) 最 短路 径 (250 个 顶点 ) 


4.1.6 连通 分 量 
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深度 优先 搜索 的 下 一 个 直接 应 用 就 是 找 出 一 幅 图 的 所 有 连通 分 量 。 回 忆 1.5 节 中 “与 …… 连 通 ” 
是 一 种 等 价 关 系 ， 它 能 够 将 所 有 顶点 切 分 为 等 价 类 (连通 分 量 ) 。 对 于 这 个 常见 的 任务 ， 我 们 定义 


如 下 API ( 请 见 表 4.1.6 ) 。 


表 4.1.6 ”连通 分 量 的 API 


public class CC 
CCCGraph GO) 


boolean connected(int v, int w) 


int count() 
int idCint v) 


预 处 理 构造 函数 

Vv 和 w 连通 吗 

连通 分 量 数 

v 所 在 的 连通 分 量 的 标识 符 (0 ~ count()-1) 


用 例 可 以 用 idQ 方法 将 连通 分 量 用 数组 保存 ， 如 框 注 中 的 用 例 所 示 。 它 能 够 从 标准 输入 中 读 
取 一 幅 图 并 打印 其 中 的 连通 分 量 数 ， 其 后 是 每 个 子 图 中 的 所 有 顶点 , 每 行 一 个 子 图 。 为 了 实现 这 些 ， 
它 使 用 了 一 个 Bag 对 象 数组 ， 然 后 用 每 个 顶点 所 在 的 子 图 的 标识 符 作 为 数组 的 索引 ， 以 将 所 有 顶点 
加 入 相应 的 Bag 对 象 中 。 当 我 们 希望 独立 处 理 每 个 连通 分 量 时 这 个 用 例 就 是 一 个 模型 。 


4.1.6.1 ”实现 

CC 的 实现 (请 见 算法 4.3 ) 使 用 了 
marked[] 数组 来 寻找 一 个 顶点 作为 每 个 
连通 分 量 中 深度 优先 搜索 的 起 点 。 递 归 
的 深度 优先 搜索 第 一 次 调用 的 参数 是 顶 
点 0 一 一 它 会 标记 所 有 与 0 连通 的 顶点 。 
然后 构造 函数 中 的 for 循环 会 查找 每 个 
没有 被 标记 的 顶点 并 递归 调用 dfsQ 〇 来 
标记 和 它 相 邻 的 所 有 顶点 。 另 外 ， 它 
还 使 用 了 一 个 以 顶点 作为 索引 的 数组 
id[] ， 将 同一 个 连通 分 量 中 的 顶点 和 连 
通 分 量 的 标识 符 关联 起 来 (int 值 ) 。 这 
个 数组 使 得 connected() 方法 的 实现 变 
得 十 分 简单 ， 和 1.5 节 中 的 connectedQ) 
方法 完全 相同 〈 只 需 检 查 标识 符 是 否 相 


public static void main(String[] args) 


{ 


Graph G = new GraphCnew In(args[0])); 
CC Ce = New CC(GO); 


int M = cc.countO; 


Stdout.printlnCM + " components"); 


Bag<Integer>[] components; 

components = (Bag<Integer>[]) new Bag[M] ; 

for (Cint 1 = 0; i < M; i++) 
components[i] = new Bag<Integer>() ; 

for (Cint v = 0; v < G.VO; v++) 
components[cc.id(v)] .add(v); 

for Gnt i = 0 1°< M14+) 
for (int v: components[i]) 

StdOut.print(v + " "); 

StdOut.print1nO); 

} 


} 
同 ) 。 这 里 ， 标 识 符 0 会 被 赋予 第 一 个 
连通 分 量 中 的 所 有 顶点 ，1 会 被 赋予 第 二 查找 连通 分 量 API 的 测试 用 例 
个 连通 分 量 中 的 所 有 顶点 ， 依 此 类 推 。 这 样 所 有 的 标识 符 都 会 如 API 中 指定 的 那样 在 0 到 countO-1 


之 间 。 这 个 约定 使 得 以 子 图 作为 索引 的 数组 成 为 可 能 ， 如 右 侧 框 注 用 例 所 示 。 


算法 4.3 ”使 用 深度 优先 搜索 找 出 图 中 的 所 有 连通 分 量 


public class CC 

f 
private boolean[] marked: 
private int[] id; 
private int count; 
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public CC(Graph G) l 
了 % more tinyG.txt 
marked = new boolean[G.YVO]; 13 vertices, 13 edges 


id = new int[G.VO]; B20 
for (int s = 0; s < G.VO; s++) 1:0 
if (!marked[s]) 2 守 浊 
{ 3% 二 4 
dfs(G, s); 4 5.63 
COount++; Ba 3 AO 
6: 04 
1 7: 8 
private void dfs{Graph G6, int v) 8: 7 
f 9 了 Oo 
markad[v] = true; 10% 9 
id[v] = count; HL 
for (int w : G.adi(v)) 12%- 319 
if (Imarkedfw])} 
dfs(G, WwW); % java CC tinyG.txt 
3 components 
public boolean connected(int v, int w) 6543210 
{ return id[v] == id[w]; } B87 
12 11 10 9 


public int idCint v) 
{ return id[v]; } 


public int countO) 
{ return count; } 


} 

这 段 Graph 的 用 例 使 得 它 的 用 例 可 以 独立 处 理 一 幅 图 中 的 每 个 连通 分 量 。 来 自 DepthfirstSearch 
(请 见 4.1.3.2 节 ) 的 代码 均 为 灰色 。 这 里 的 实现 是 基于 一 个 由 顶点 索引 的 数组 id[] 。 如 果 v 属于 第 i 个 
连通 分 量 ， 则 id[v] 的 值 为 i。 构 造 函 数 会 找 出 一 个 未 被 标记 的 项 点 并 调用 递归 函数 dfs () 来 标记 并 区 
分 出 所 有 和 它 连通 的 项 点 ， 如 此 重复 直到 所 有 的 顶点 都 被 标记 并 区 分 。connected()、count() 和 idQ) 
方法 的 实现 非常 简单 〈 另 见 图 4.1.21 ) 。 


命题 C。 深 度 优先 搜索 的 预 处 理 使 用 的 时 间 和 空间 与 VtE 成 正比 且 可 以 在 常数 时 间 内 处 理 关 于 
图 的 连通 性 查询 。 


证 明 。 由 代码 可 以 知道 每 个 邻接 表 的 元 素 都 只 会 被 检查 一 次 ， 共 有 2E 个 元 素 (每 条 边 两 个 ) 。 
实例 方法 会 检查 或 者 返回 一 个 或 两 个 变量 。 


4.1.6.2 union-find 算法 

CC 中 基于 深度 优先 搜索 来 解决 图 连通 性 问题 的 方法 与 第 1 章 中 的 union-find 算法 相 比 熟 优 识 
劣 ? 理论 上 ,深度 优先 搜索 比 union-find 法 快 ， 因 为 它 能 保证 所 需 的 时 间 是 常数 而 union-find 算法 
不 行 ; 但 在 实际 应 用 中 ， 这 点 差异 微不足道 。union-find 算法 其 实 更 快 ， 因 为 它 不 需要 完整 地 构造 
并 表示 一 幅 图 。 更 重要 的 是 ，union-find 算法 是 一 种 动态 算法 (我 们 在 任何 时 候 都 能 用 接近 常数 的 
时 间 检 查 两 个 顶点 是 否 连 通 ， 其 至 是 在 添加 一 条 边 的 时 候 ) ， 但 深度 优先 搜索 则 必须 要 对 图 进行 预 
处 理 。 因 此 ， 我 们 在 完成 只 需要 判断 连通 性 或 是 需要 完成 有 大 量 连通 性 查询 和 插入 操作 混合 等 类 似 
的 任务 时 ， 更 倾向 使 用 union-find 算法 ， 而 深度 优先 搜索 则 更 适合 实现 图 的 抽象 数据 类 型 ， 因 为 它 
能 更 有 效 地 利用 已 有 的 数据 结构 。 
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tinyG. txt 


Co 
NIP OO 


@ GK@ 
5 


count marked[] id[] 
012345678 9101112 012345678 9101112 


dfs(0) 0 T 0 


dfs(2) 0 ji 0 00000 


dfs(1) 0 $F 0000000 


dfs(7) 电 上 省 0000000 1 
dfs(8) 1 下 000000011 


dfs(9) 2 和 0000000112 
dfs(11) 4 是 到 于 下 有 下 全 0000000112 2 
检查 9 

dfs(12) 2 和 有 工种 和 用 下 人 相遇 本 7 人 Q000000112 2 次 
检查 11 
检查 9 

12 完成 

11 完成 

dfs(10) 2 DT 六 
检查 9 

10 完成 

检查 12 

9 完成 


图 4.1.21 使 用 深度 优先 搜索 的 轨迹 ， 寻 找 所 有 连通 分 量 


我 们 已 经 用 深度 优先 搜索 解决 了 几 个 非常 基础 的 问题 。 这 种 方法 很 简单 ， 递 归 实 现 使 我 们 能 够 进行 
复杂 的 运算 并 为 一 些 图 的 处 理 问题 给 出 简洁 的 解决 方法 。 在 表 4.1.7 中 , 我 们 为 下 面 两 个 问题 作出 了 解答 。 
检测 环 。 给 定 的 图 是 无 环 图 吗 ? 
双色 问题 。 能 够 用 两 种 颜色 将 图 的 所 有 顶点 着 色 ， 使 得 任意 一 条 边 的 两 个 端点 的 颜色 都 不 相同 
吗 ? 这 个 问题 也 等 价 于 : 这 是 一 幅 二 分 图 吗 ? 
深度 优先 搜索 和 已 学 习 过 的 其 他 算法 一 样 , 它 简洁 的 代码 下 隐藏 着 复杂 的 计算 。 因 此 ,研究 这 些 例子 、 |545 
在 样 图 中 跟踪 算法 的 轨迹 并 加 以 扩展 、 用 算法 来 解决 环 和 着 色 的 问题 都 是 非常 值得 的 ( 留 作 练习 ) 。 546 
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表 4.1.7 使 用 深度 优先 搜索 处 理 图 的 其 他 示例 





任 ” 务 实 现 





G 是 无 环 图 吗 ? (假设 不 存在 public ciass Cycle 

自 环 或 平行 边 ) { 
private booleanll marked; 
private boolean hasCycle; 
public CycletGraph 6) 


iarked = new booleanlt,.Y() 


“0: ss 





pe 
ep 





1 和 二 


private void dfs(Graph G&G, int v, int uy) 







markedfv] = true: 
for (in ( 





{sy 5 VAs 
else if (w != u) hasCycle = true; 


4 
上 


public boolean hasCycleQ) 
{ return hasCycle; } 
有; 





G 是 二 分 图 吗 ? (双色 问题 ) public class TwoColor 
f 


private booleant{f] marked: 
private boolean[] color; 
private boolean isTwoColorable = true; 
public TwoColor (Graph &) 
{ 
marked :new booleanfG,YvO}: 
color = new boolean[G.VO]; 
for {Tint OQ; 5 < GVCO; S++) 


和 





了 


private void dfs{Graph 6，3nt VD 
{ 

marked[y] < tryue’ 

for Cint 





: GG.adiCv)) 


i Cimarkedlwl)} 





color[w] = !color[v]; 
dfs(G, Ww); 
和 


ie if (color[w] == color[v]) isTwoColorable = false; 
} 


public boolean isBipartite() 
{ return isTwoColorable; } 





4.1.7 ”符号 图 

在 典型 应 用 中 , 图 都 是 通过 文件 或 者 网 页 定义 的 , 使 用 的 是 字符 串 而 非 整数 来 表示 和 指 代 顶 点 。 
为 了 适应 这 样 的 应 用 ， 我 们 定义 了 拥有 以 下 性 质 的 输入 格式 : 

口 顶点 名 为 字符 串 ; 


4.1 无 向 图 二 353 





口 用 指定 的 分 隔 符 来 隔 开 项 点 名 ( 允许 顶点 名 routes.txt 。 没有 显 式 的 
中 含有 空格 ) ; 2 指定 VfnE 的 什 
口 每 一 行 都 表示 一 组 边 的 集合 ， 每 一 条 边 都 连 ORD HOY 
接着 这 一 行 的 第 一 个 名 称 表示 的 项 点 和 其 他 JFK ATL 
名 称 所 表示 的 项 点; ORD DFW 
口 顶点 总 数 广 和 边 的 总 数 E 都 是 隐 式 定义 的 。 ATL MON 
图 4.1.22 是 一 个 简单 的 示例 。Routes.txt 文件 表 PHX LAX 
示 的 是 一 个 小 型 运输 系统 的 模型 ， 其 中 表示 每 个 顶点 0 
的 是 美国 机 场 的 代码 ， 连 接 它们 的 边 则 表示 顶点 之 间 DR Ho 


4 航线 。 文 件 只 是 一 组 边 的 列表 。 图 4.1.23 所 示 的 是 nn 
的 航线 。 文 件 只 是 一 组 边 的 列表 。 图 所 示 的 是 LA iax 人 


一 个 更 庞大 的 例子 ， 取 自 movies.txt， 即 3.5 节 中 介 ol Me 

绍 的 互联 网 电影 数据 库 。 还 记得 吗 ? 这 个 文件 的 每 一 LAS PHX 

行 都 列 出 了 一 个 电影 名 以 及 出 演 该 部 电影 的 一 系列 

演员 。 从 图 的 角度 来 说 ， 我 们 可 以 将 它 看 作 一 幅 图 的 图 4.1.22 ”符号 图 示例 ( 边 的 列表 ) 
定义 ， 电 影 和 演员 都 是 顶点 ， 而 邻接 表 中 的 每 一 条 边 

都 将 电影 和 它 的 表演 者 联系 起 来 。 注 意 ， 这 是 一 幅 二 分 图 一 一 电影 顶点 之 间或 者 演员 结 点 之 间 都 没有 
边 相连 。 

4.1.7.1 API 


表 4.1.8 中 ，API 定义 的 Graph 用 例 可 以 直接 使 用 已 有 的 图 算法 来 处 理 这 种 文件 定义 的 图 。 


表 4.1.8 用 符号 作为 项 点 名 的 图 的 API 
public class SymbolGraph 


SymbolGraph(String filename, 根据 filename 指定 的 文件 构造 图 ， 使 用 de1im 来 分 
String delim) 隔 顶 点 名 
boolean contains(String key) key 是 一 个 顶点 吗 
int index(String key) Key 的 索引 
String name(int v) 索引 v 的 顶点 名 
Graph GO 隐藏 的 Graph 对 象 548 


这 份 API 定义 了 一 个 构造 函数 来 读 取 并 构造 图 ， 用 name() 方法 和 index() 方法 将 输入 流 中 的 
顶点 名 和 图 算法 使 用 的 顶点 索引 对 应 起 来 。 
4.1.7.2 ”测试 用 例 

下 一 页 框 注 所 示 的 是 符号 图 的 测试 用 例 ， 它 用 第 一 个 命令 行 参数 指定 的 文件 (第 二 个 命令 行 参 
数 指定 了 分 隔 符 ) 来 构造 一 幅 图 并 从 标准 输入 接受 查询 。 用 户 可 以 输入 一 个 顶点 名 并 得 到 该 顶点 的 
相 邻 结 点 的 列表 。 这 个 用 例 提供 的 正好 是 3.5 节 中 研究 过 的 反 向 索引 的 功能 。 以 routes.txt 为 例 ， 你 
可 以 输入 一 个 机 场 的 代码 来 查找 能 从 该 机 场 直 飞 到 达 的 城市 ， 但 这 些 信 息 并 不 是 直接 就 能 从 文件 中 
得 到 的 。 对 于 movies.txt， 你 可 以 输入 一 个 演员 的 名 字 来 查看 数据 库 中 他 所 出 演 的 影片 列表 。 输 入 
一 部 电影 的 名 字 来 得 到 它 的 演员 列表 ， 这 不 过 是 在 照搬 文件 中 对 应 行 数据 ， 但 输入 演员 的 名 字 来 得 
到 影片 的 列表 则 相当 于 查找 反 向 索引 。 尽 管 数据 库 的 构造 是 为 了 将 电影 名 连接 到 演员 ， 二 分 图 模型 
同时 也 意味 着 将 演员 连接 到 电影 名 。 二 分 图 的 性 质 自动 完成 了 反 向 索引 。 以 后 我 们 将 会 看 到 ， 这 将 
成 为 处 理 更 复杂 的 和 图 有 关 的 问题 的 基础 。 
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Dial M 
for Murder 


Caligola 


Patrick 
Allen 
The Stepford 
Wives 
Nicole 
Kidman 
Cold 
Mountain 

An American John 
Haunting Belushi 
The 

oodsman 















John 
Gielgud 










Portrait 
of a Lady 
Murder on the 
Orient Express 


Lloyd 

Has Landed he 

Donald 
Sutherland, 


Animal 
House 



















Kathleen Joe Versus 
Quinlan he Volcano 


performer 
vertex 















Apollo 13 












Vernon 
Dobtcheff 









Bi11 
Paxton 


movie 
vertex 


Eternal Sunshine 
of the Spotless 
Mind 


The River 
Wild 












Mery1 
Streep 











Winslet 4 Yves 








没有 显 式 的 
"OYE 一 一 指定 VfnE 的 值 
Tin Men (1987)/DeBoy, David/Blumenfeld, Alan/... /Geppi, Cindy/Hershey, Barbara... 
Tirez sur le pianiste (1960)/Heymann, Claude/.../Berger, Nicole (1)... 
Titanic (1997)/Mazin, Stan/...DiCaprio, Leonardo/.../Winslet, Kate/... 
Titus (1999)/Weisskopf, Hermann/Rhys, Matthew/.../McEwan, Geraldine "/" 为 分 隔 符 
To Be or Not to Be (1942)/Verebes, Ernd (1)/.../Lombard, Carole (1)... 
To Be or Not to Be (1983)/.../Brooks, Mel (1)/.../Bancroft, Anne/... 
To Catch a Thief (1955)/Paris, Manuel/.../Grant, Cary/.../Kelly, Grace/... 
To Die For (1995)/Smith, Kurtwood/.../Kidman, Nicole/.../ Tucci, Maria... 


电影 名 演员 


图 4.1.23 符号 图 示例 (邻接 表 ) 


public static void main(String[] args) 
{ 
String filename = args[0]; 
String delim = args[1]; 
SymbolGraph sg = new SymbolGraph(filename, delim); 


Graph G = sg.GO) ; 


while (StdIn.hasNextLine()) 
{ 
String source = StdIn.readLine(Q); 
for (int w : G.adj(sg.index(source))) 
StdOut.printinC" "+ sg.name(w)); 


符号 图 API 的 测试 用 例 
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% java Symbolcraph movies.txt "/" 
Tin Men (1987) 

DeBoy，David 

Blumenfeld, Alan 


Geppi, Cindy 


% java SymbolGraph routes.txt " " Hershey, Barbara 
JFK 2 
ORD Bacon, Kevin 
ATL Mystic River (2003) 
MCO Friday the 13th (1980) 
LAX Flatliners (1990) 
LAS Few Good Men, A (1992) 
PHX i 


很 显然 ， 这 种 方法 适用 于 我 们 遇 到 过 的 所 有 图 算法 : 用 例 可 以 用 index 0 将 顶点 名 转化 为 索引 
并 在 图 的 处 理 算 法 中 使 用 ， 然 后 将 处 理 结 果 用 name() 转化 为 顶点 名 以 方便 在 实际 应 用 中 使 用 。 
4.1.7.3 ”实现 

SymbolGraph 的 完整 实现 请 见 下 面 的 框 注 “ 符 号 图 的 数据 类 型 ”。 它 用 到 了 以 下 3 种 数据 结构 ， 
参见 图 4.1.24。 

口 一 个 符号 表 st， 键 的 类 型 为 String ( 顶点 名 ) ， 值 的 类 型 为 int (索引 ) ; 

口 一 个 数组 keys[] ， 用 作 反 向 索引 ， 保 存 每 个 顶点 索引 所 对 应 的 顶点 名 ; 

口 一 个 Graph 对 象 6， 它 使 用 索引 来 引用 图 中 顶点 。 

Symbo1Graph 会 遍历 两 遍 数 据 来 构造 以 上 数据 结构 ， 这 主要 是 因为 构造 Graph 对 象 需要 顶点 
总 数 V。 在 典型 的 实际 应 用 中 ， 在 定义 图 的 文件 中 指明 广 和 EE ( 见 本 节 开 头 Graph 的 构造 函数 ) 可 
能 会 有 些 不 便 ， 而 有 了 Symbo1Graph， 我 们 就 可 以 方便 地 在 routes.txt 或 者 movies.txt 中 添加 或 者 删 
除 条 目 而 不 用 担心 需要 维护 边 或 顶点 的 总 数 。 









































符号 表 反 向 索引 无 向 图 
ST<String, Integer> st String[] keys Graph G6 
JFK 0 Gi int V 10 
ML | “EPH 
3 | RE [7 Fs] 
i RD si 
DEN 3 4 |HOU 0 
5 | DFW 7 0 6 5 4 | 
HOU 4 6 | pHx b 
DFwW 5 7 |ATL 2 ™|9j*|e| 
8 | LAX 3 TIE 
PHX 6 7 
9 1LAS 7 
TT 4 [7 2] 
LAX 8 
六 忆 7 [9 上 -8 上 -3 | [ 5| 
刍 人 >1LIhL2F[4 0 
9 
geg| 











4.1.24 符号 图 中 用 到 的 数据 结构 
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552] 





符号 图 的 数据 类 型 
public class SymbolGraph 
{ 
private ST<String, Integer> st; // 符号 名 一 索引 
private String[] keys; // 索引 一 符号 名 
private Graph G; // 图 
public SymbolGraph(String stream, String sp) 
{ 
st = new ST<String, Integer>(); 
In in = new In(stream); // 第 一 遍 
while (in.hasNextLine()) // 构造 索引 
{ 
String[] a = in.readLine().split(sp); // 读 取 字 符 串 
for (int i = 0; i < a.length; i++) // 为 每 个 不 同 的 字符 串 关 联 一 个 索引 
if (!st.contains(a[i])) 
st. puUtCaLi], St .51ze(O)): 
} 
keys = new String[st.size()]; // 用 来 获得 顶点 名 的 反 向 索引 是 一 个 数组 


for (String name : st.keys()) 
keys[st.get(name)] = name; 


G = new Graph(st.size()); 


in = new In(stream); // 第 二 遍 
while (in.hasNextLine()) // 构造 图 


String[] a = in.readLine().split(sp); // 将 每 一 行 的 顶点 和 该 行 的 其 他 顶点 相连 
int v = st.get(a[0]); 
for (int 1 1» 1 < a lengths 1++) 

G.addEdge(v, st.get(a[1i])); 


3 
} 
public boolean contains(String s) { return st.contains(s); } 
public int index(String s) { return st.get(s); } 
public String nameCint v) TOUR KE 3 
public Graph GO { return G 3 
} 
这 个 Graph 实现 允许 用 例 用 字符 串 代替 数字 索引 来 表示 图 中 的 顶点 。 它 维护 了 实例 变量 st ( 符号 
表 用 来 映射 顶点 名 和 索引 ) 、keys (数组 用 来 映射 索引 和 顶点 名 ) 和 G ( 使 用 索引 表示 顶点 的 图 ) 。 为 


了 构造 这 些 数据 结构 , 代码 会 将 图 的 定义 处 理 两 遍 ( 定义 的 每 一 行 都 包含 一 个 顶点 及 它 的 相 邻 顶点 列表 ， 
用 分 隔 符 sp 隔 开 ) 。 


4.1.7.4 间隔 的 度数 
图 处 理 的 一 个 经 典 问题 就 是 ， 找 到 一 个 社交 网 络 之 中 两 个 人 间隔 的 度数 。 为 了 和 弄 清楚 概念 ， 我 
们 用 一 个 最 近 很 流行 的 名 为 Kevin Bacon 的 游戏 来 说 明 这 个 问题 。 这 个 游戏 用 到 了 刚才 讨论 的 “ 电 
影 - 演 员 ” 图 。Kevin Bacon 是 一 个 活跃 的 演员 ， 曾 出 演 过 许多 电影 。 我 们 为 图 中 的 每 个 演员 赋 一 
个 Kevin Bacon 数 : Bacon 本 人 为 0， 所 有 和 Kevin Bacon 出 演 过 同一 部 电影 的 人 的 值 为 1， 所 有 
(除了 Kevin Bacon ) 和 Kevin Bacon 数 为 1 的 演员 出 演 过 同一 部 电影 的 其 他 演员 的 值 为 2， 依 次 类 
推 。 例 如 ，Meryl Streep 的 Kevin Bacon 数 为 1， 因为 她 和 Kevin Bacon 一 同 出 演 过 The River Wild。 
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Nicole Kidman 的 值 为 2， 因 为 她 虽然 没有 和 Kevin Bacon 同 台 演出 过 任何 电影 ， 但 她 和 Tom Cruise 
一 起 演 过 Days of Thunder， 而 Tom Cruise 和 Kevin Bacon 一 起 演 过 4 Few Good Men。 给 定 一 个 演员 
的 名 字 ， 游 戏 最 简单 的 玩法 就 是 找 出 一 系列 的 电影 和 演员 来 回溯 到 Kevin Bacon。 例 如 ， 有 些 影迷 
可 能 知道 Tom Hanks 和 Lloyd Bridges 一 起 演 过 Joe Versus the Volcano， 而 Bridges 和 Grace Kelly 一 
起 演 过 High Noon，Kelly 又 和 Patrick Allen 一 起 演 过 Dial M for Murder,，Allen 和 Donald Sutherland 
一 起 演 过 The Eagle has Landed，Sutherland 和 Kevin Bacon 一 起 出 演 了 Animal House。 但 知道 这 些 
也 并 不 足以 确定 Tom Hanks 的 Kevin Bacon 数 。 ( 他 的 值 实 际 上 应 该 是 1， 因 为 他 和 Kevin Bacon 
在 Apollo 13 中 合作 过 ) 。 你 可 以 看 到 Kevin Bacon 数 必 须 定 义 为 最 短 电影 链 的 长 度 ， 因 此 如 果 不 用 
计算 机 ， 人 们 很 难 知 道 游戏 中 到 底 谁 启 了。 当然 ， 如 后 面 框 注 “间隔 的 度数 ”中 Symbol1Graph 的 
用 例 Degrees0fSeparation 所 示 ，BreadthFirstPaths 才 是 我 们 所 要 的 程序 ， 它 通过 最 短路 径 来 


找 出 movies.txt 中 任意 演员 的 Kevin Bacon 数 。 这 个 程序 从 命令 行 得 到 一 个 起 点 ， 从 标准 输入 中 接 
受 查 询 并 打印 出 一 条 从 起 点 到 被 查询 顶点 的 最 短路 径 。 因 为 movies.txt 所 构造 的 是 一 幅 二 分 图 ， 每 


条 路 径 上 都 会 交替 出 现 电 影 和 演员 的 顶点 。 打 出 的 结果 可 以 证 明 这 样 的 路 径 是 存在 的 〈 但 并 不 能 证 
明 它 是 最 短 的 一 一 你 需要 向 你 的 朋友 证 明 命题 B 才 行 ) 。Degrees0fSeparation 也 能 够 在 非 二 分 
图 中 找到 最 短路 径 。 例 如 ， 在 routes.txt 中 ， 它 能 够 用 最 少 的 边 找到 一 种 从 一 个 机 场 到 达 另 一 个 机 场 
的 方法 。 





% java DegreesOfSeparation movies.txt "/”"Bacon，Kevin” 
Kidman，Nicole 
Bacon，Kevin 
Few Good Men, A (1992) 
Cruise, Tom 
Days of Thunder (1990) 
Kidman, Nicole 
Grant, Cary 
Bacon, Kevin 
Mystic River (2003) 
Willis, Susan 
Majestic, The (2001) 
Landau, Martin 
North by Northwest (1959) 
Grant, Cary 


你 可 能 会 发 现 用 Degrees0fSeparation 来 回答 一 些 关 于 电影 行业 的 问题 很 有 趣 。 例 如 ， 你 不 
但 可 以 找到 演员 和 演员 之 间 的 间隔 ， 还 可 以 找到 电影 和 电影 之 间 的 间隔 。 更 重要 的 是 ， 间 隔 的 概 
念 在 其 他 许多 领域 也 被 广泛 研究 。 例 如 ， 数 学 家 也 会 玩 这 个 游戏 ,但 他 们 的 图 是 用 一 些 论文 的 作 
者 到 PErd5s ( 20 世纪 的 一 位 多 产 的 数学 家 ) 的 距离 来 定义 的 。 类 似 地 ， 似 乎 新 泽 西 州 的 每 个 人 的 
Bruce Springsteen 数 都 为 2， 因 为 每 个 人 都 声称 自己 认识 某 个 认识 Bruce 的 人 。 要 玩 Erd6s 的 游戏 ， 
你 需要 一 个 包含 所 有 数学 论文 的 数据 库 ; 要 玩 Sprintsteen 的 游戏 还 要 困难 一 些 。 从 更 严肃 的 角度 来 
说 ， 间 隔 度数 的 理论 在 计算 机 网 络 的 设计 以 及 理解 各 个 科学 领域 中 的 自然 网 络 中 都 能 起 到 重要 的 
作用 。 554 
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% java DegreesOfSeparation movies.txt "/" "Animal House (1978)" 
Titanic (1997) 
Animal House (1978) 
Allen, Karen (I) 
Raiders of the Lost Ark (1981) 
Taylor, Rocky (I) 
Titanic (1997) 
To Catch a Thief (1955) 
Animal House (1978) 
Vernon, John (I) 
Topaz (1969) 
Hitchcock, Alfred (I) 
To Catch a Thief (1955) 





间隔 的 度数 
public class DegreesOfSeparation 
{ 
public static void main(String[] args) 
{ 
SymbolGraph sg = new SymbolGraph(args[0], args[1]); 
Graph G = sg.G6O; 
String source = args[2]; 
if (!sg.contains(source)) 
{ StdOut.printin(source + "not in database."); return; } 
int s = sg.index(source); 
BreadthFirstPaths bfs = new BreadthFirstPaths(G, s); 
A | 
人 (!StdIn.isEmpty()) % java 
String sink = StdIn.readLine(); DegreesUtSepanation 
if (sg.contains(sink)) routes. txt JFK 
LAS 
int t = sg.index(sink); JFK 
if (bfs.haspathTo(t)) ORD 
for (int v : bfs.pathTo(t)) PHX 
StdOut.printin(” "+ sg.name(v)); LAS 
else StdOut.printin("Not connected"); DFW 
+ JFK 
else StdOut.printin("Not in database."); ORD 
} DFW 
} 


这 有 段 代码 使 用 了 Symbo1Graph 和 BreadthFirstPath 来 查找 图 中 的 最 短路 径 。 对 于 movies.txt， 可 
以 用 它 来 玩 Kevin Bacon 游戏 。 





4.1.8 ”总 结 
在 本 节 中 ， 我 们 介绍 了 几 个 基本 的 概念 ， 本 章 的 其 余部 分 会 继续 扩展 并 研究 : 
口 图 的 术语 ; 
口 一 种 图 的 表示 方法 ， 能 够 处 理 大 型 而 稀 玻 的 图 ; 
口 和 图 处 理 相 关 的 类 的 设计 模式 ， 其 实现 算法 通过 在 相关 的 类 的 构造 函数 中 对 图 进行 预 处 理 、 
构造 所 需 的 数据 结构 来 高 效 支持 用 例 对 图 的 查询 ; 
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口 深度 优先 搜索 和 广度 优先 搜索 ; 

口 支持 使 用 符号 作为 图 的 顶点 名 的 类 。 

表 4.1.9 总 结 了 我 们 已 经 学 习 过 的 所 有 图 算法 的 实现 。 这 些 算 法 非常 适合 作为 图 处 理 的 人 门 学 
习 。 随 后 学 习 更 加 复杂 类 型 的 图 以 及 处 理 更 加 困难 的 问题 时 ， 我 们 还 会 用 到 这 些 代码 的 变种 。 在 考 
虑 了 边 的 方向 以 及 权重 之 后 ， 同 样 的 问题 会 变 得 困难 得 多 ， 但 同样 的 算法 仍然 奏效 并 将 成 为 解决 更 
加 复杂 问题 的 起 点 。 


表 4.1.9 本 节 中 得 到 解决 的 无 向 图 处 理 问 题 


问 题 解决 方法 参 阅 
单 点 连通 性 DepthFirstSearch 4.1.3.2 节 
单 点 路 径 DepthFirstPaths 算法 4.1 
单 点 最 短路 径 BreadthFirstPaths 算法 4.2 
连通 性 CC 算法 4.3 
检测 环 Cycle 表 4.1.7 
双色 问题 ( 图 的 二 分 性 ) TwoColor 表 4.1.7 556 


图 答疑 


为 什么 不 把 所 有 的 算法 都 实现 在 Graph.java 中 ? 

可 以 这 么 做 ， 可 以 向 基本 的 Graph 抽象 数据 类 型 的 定义 中 添加 查询 方法 ( 以 及 它们 需要 的 私有 变量 和 
方法 等 ) 。 尽 管 这 种 方式 可 以 用 到 一 些 我 们 所 使 用 的 数据 结构 的 优点 ， 它 还 是 有 一 些 严 重 的 缺陷 ， 因 
为 图 处 理 的 成 本 比 1.3 节 中 遇 到 那些 基本 数据 结构 要 高 得 多 。 这 些 缺 点 主要 有 : 

口 在 图 处 理 中 ， 需 要 实现 的 操作 还 有 很 多 ， 我 们 无 法 在 一 份 API 中 全 部 精确 地 定义 它们 ; 

口 简单 任务 的 API 和 复杂 任务 所 使 用 的 API 是 相同 的 ; 

口 一 个 方法 将 可 以 访问 另外 一 个 方法 专用 的 变量 ， 这 有 悖 我 们 需要 遵守 的 封装 原则 。 

这 种 情况 并 不 罕见 : 这 种 API 被 称 为 宽 接 口 (请 见 1.2.5.2 节 ) 。 本 章 包含 如 此 众多 的 图 算法 ， 
将 导致 这 种 API 变 得 非常 宽 。 

Symbo1Graph 真 需要 将 图 的 定义 遍历 两 遍 吗 ? 

不 ， 你 也 可 以 将 用 时 增加 lgV 并 直接 用 ST 而 非 Bag 来 实现 adjGO 。 我 们 的 另 一 本 书 An Introduction to 
Programming in Java: An Interdisciplinary Approach 中 含有 使 用 这 种 方法 的 一 个 实现 。 


苦 本 


史 可 
un 
-3 


图 练 与 


4.1.1 一 幅 含 有 天 个 顶点 且 不 含有 平行 边 的 图 中 至 多 含有 多 少 条 边 ? 一 幅 含 及 个 顶点 的 连通 图 中 至 少 
含有 多 少 条 边 ? 

4.1.2 按照 正文 中 示意 图 的 样式 (请 见 图 4.1.9 ) 画 出 Graph 的 构造 函数 在 处 理 图 4.1.25 的 tinyGex2.txt 
时 构造 的 邻接 表 。 

4.1.3 为 Graph 添加 一 个 复制 构造 郴 数 ， 它 接受 一 幅 图 6 然后 创建 并 初始 化 这 幅 图 的 一 个 副本 。6 的 用 
例 对 它 作出 的 任何 改动 都 不 应 该 影响 到 它 的 副本 。 

4.1.4 为 Graph 添加 一 个 方法 hasEdge()， 它 接受 两 个 整 型 参数 v 和 w。 如 果 图 含有 边 v-w， 方 法 返回 
true， 否 则 返回 false。 
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4.1.16 


修改 Graph， 不 允许 存在 平行 边 和 自 环 。 
有 一 张 含 有 四 个 顶点 的 图 ， 其 中 的 边 为 0-1、1-2、2-3 和 3-0。 给 出 一 种 邻接 表 数 组 ， 无 论 以 任 
何 顺序 调用 addEdge() 来 添加 这 些 边 都 无 法 创建 它 。 
为 Graph 编写 一 个 测试 用 例 ， 用 命令 行 参 数 命 名 并 从 输入 流 中 接受 一 幅 图 ， 然 后 用 toSstringO) 
方法 将 其 打印 出 来 。 
按照 正文 中 的 要 求 ， 用 union-find 算法 实现 4.1.2.3 中 搜索 的 API。 
使 用 dfs (0) 处 理由 Graph 的 构造 函数 从 tinyGex2.txt ( 请 见 练习 4.1.2 ) 得 到 的 图 并 按照 4.1.3.5 
节 的 图 4.1.14 的 样式 给 出 详细 的 轨迹 。 同 时 ， 画 出 edgeTo[] 所 表示 的 树 。 
证 明 在 任意 一 幅 连 通 图 中 都 存在 一 个 顶点 ， 删 去 它 〈 以 及 和 它 相 连 的 所 有 边 ) 不 会 影响 到 图 的 
连通 性 ， 编 写 一 个 深度 优先 搜索 的 方法 找 出 这 样 一 个 顶点 。 提 示 : 留心 那些 相 邻 顶点 全 部 都 被 
标记 过 的 顶点 。 
使 用 算法 4.2 中 的 bfs(G,0) 处 理由 Graph 的 构造 函数 从 tinyGex2.txt ( 请 见 练习 4.1.2 ) 得 到 的 
图 并 画 出 edgeTo[] 所 表示 的 树 。 
如 果 v 和 w 都 不 是 根 结 点 ， 能 够 由 广度 优先 搜索 得 到 的 树 中 计算 它们 之 间 的 距离 吗 ? 
为 BreadthFirstPaths 的 API 添加 并 实现 一 个 方法 distToG@O ， 返 回 从 起 点 到 给 定 的 顶点 的 最 短 
路 径 的 长 度 ， 它 所 需 的 时 间 应 该 为 常数 。 
如 果 用 栈 代替 队列 来 实现 广度 优先 搜索 ， 我 们 还 能 得 到 最 短路 径 吗 ? 
修改 Graph 的 输入 流 构造 函数 ， 人 允许 从 标准 输入 读 入 图 的 邻接 表 ( 方法 类 似 于 Symbo- 


1Graph ) ， 如 图 4.1.26 的 tinyGadj.txt 所 示 。 在 顶点 和 边 的 总 数 之 后 ， 每 一 行 由 一 个 顶点 和 它 的 
所 有 相 邻 顶点 组 成 。 
Te 
(2) C2) 
(3) (9)HA《0 内容 和 “ 边 列表 ” 相 
tinyGex2 .txt (9 NN 同 ， 只 是 顺序 不 同 
V2 上 (5) QA / 
pi 
84 tinyGadj.txt 


% java Graph tinyGadj .txt 





2 3 
13 vertices，13 edges 
es 1065 。 
0 6 01256 1: 0 列表 顺序 
2 3 45 2: 0 和 输入 相反 
20 456 3: 5 4 
的 本: 4: 653 
人 9101112 5 430 
汪 Th 6: 4 0 
< 73.8 
多 8 7 
5 2 
41211340  .. 1 
2 1 3 每 条 边 在 第 二 
1 12 。 次 出 现 的 时 候 
12: 11 9 会 显示 为 红色 
图 4.1.25 图 4.1.26 
顶点 v 的 离心 率 是 它 和 离 它 最 远 的 顶点 的 最 短 距离 。 图 的 直径 即 所 有 顶点 的 最 大 离心 率 ， 半 径 


为 所 有 顶点 的 最 小 离心 率 ， 中 点 为 离心 率 和 半径 相等 的 顶点。 实现 以 下 API， 如 表 4.1.10 所 示 。 


4.1.17 


4.1.18 


4.1.19 


4.1.20 


4.1.21 


4.1.22 


4.1.23 


4.1.24 


4.1.25 


4.1.26 


4.1.27 


4.1.28 


4.1 


表 4.1.10 


public class GraphProperties 


GraphProperties(CGraph ©) 构造 函数 ( 如果 G 不 是 连通 的 ， 抛 出 异常 ) 


int eccentricity(int v) v 的 离心 率 
int diameter() G 的 直径 
int radius() G 的 半径 
int center() G 的 某 个 中 点 


图 的 周 长 为 图 中 最 短 环 的 长 度 。 如 果 是 无 环 图 ， 则 它 的 周 长 为 无 穷 大 。 为 GraphProper-ties 
添加 一 个 方法 girth()， 返 回 图 的 周 长 。 提 示 : 在 每 个 顶点 都 进行 广度 优先 搜索 。 含 有 s 的 最 
小 环 为 s 到 某 个 顶点 v 的 最 短 距离 加 上 v 到 s 的 最 短 距离 。 

使 用 CC 找 出 由 Graph 的 输入 流 构造 函数 从 tinyGex2.txt ( 请 见 练习 4.1.2 ) 得 到 的 图 中 的 所 有 连 
通 分 量 并 按照 图 4.1.21 的 样式 给 出 详细 的 轨迹 。 

使 用 Cycle 在 由 Graph 的 输入 流 构造 函数 从 tinyGex2.txt ( 请 见 练习 4.1.2 ) 得 到 的 图 中 找到 的 一 
个 环 并 按照 本 节 示 意图 的 样式 给 出 详细 的 轨迹 。 在 最 坏 情况 下 ，Cycle 构造 函数 的 运行 时 间 的 增 
长 数量 级 是 多 少 ? 

使 用 TwoColor 给 出 由 Graph 的 构造 函数 从 tinyGex2.txt ( 请 见 练习 4.1.2 ) 得 到 的 图 的 一 个 着 色 
方案 并 按照 本 节 示 意图 的 样式 给 出 详细 的 轨迹 。 在 最 坏 情 况 下 ，TwoColor 构造 函数 的 运行 时 间 
的 增长 数量 级 是 多 少 ? 

用 Symbo1Graph 和 movie.txt 找到 今年 获得 奥斯卡 奖 提名 的 演员 的 Kevin Bacon 数 。 
编写 一 段 程序 BaconHistogram， 打 印 一 幅 Kevin Bacon 数 的 柱状 图 ， 显 示 movies.txt 中 Kevin 
Bacon 数 为 0.1、2、3.…… 的 演员 分 别 有 多 少 。 将 值 为 无 穷 大 的 人 归 为 一 类 ( 不 与 Kevin Bacon 连 通 )。 
计算 由 movies.txt 得 到 的 图 的 连通 分 量 的 数量 和 包含 的 顶点 数 小 于 10 的 连通 分 量 的 数量 。 计 算 
最 大 的 连通 分 量 的 离心 率 、 直 径 、 半 径 和 中 点 。Kevin Bacon 在 最 大 的 连通 分 量 之 中 吗 ? 


修改 DegreesOfSeparation， 从 命 
令 行 接受 一 个 整 型 参数 y， 忽 略 上 映 
年 数 超过 y 的 电影 。 

编写 一 个 类 似 于 DegreesOfSe- 
paration 的 Symbol1Graph 用 例 ， 使 
用 深度 优先 搜索 代替 广度 优先 搜索 
来 查找 两 个 演员 之 间 的 路 径 ， 输 出 
类 似 如 右 侧 框 注 所 示 的 数据 格式 。 
使 用 1.4 节 中 的 内 存 使 用 模型 评估 用 
Graph 表示 一 幅 含 及 个 顶点 和 EE 
条 边 的 图 所 需 的 内 存 。 

如 果 重 命名 一 幅 图 中 的 顶点 就 能 够 
使 之 变 得 和 另 一 幅 图 完全 相同 ， 这 
两 幅 图 就 是 同 构 的 。 画 出 含有 2、3、 
4、5 个 顶点 的 所 有 非 同 构 的 图 。 
修改 Cycle, 允许 图 含有 自 环 和 平行 边 。 


% java DegreesOfSeparationDFS movies .txt 
Source: Bacon, Kevin 
Query: Kidman, Nicole 
Bacon, Kevin 
Mystic River (2003) 
0’ Hara, Jenny 
Matchstick Men (2003) 
Grant, Beth 
. [123 movies] (!) 
Law, Jude 
Sky Captain... (2004) 
Jolie, Angelina 
Playing by Heart (1998) 
Anderson, Gillian (I) 
Cock and Bull Story, A (2005) 
Henderson, Shirley (I) 
24 Hour Party People (2002) 
Eccleston, Christopher 
Gone in Sixty Seconds (2000) 
Balahoutis, Alexandra 
Days of Thunder (1990) 
Kidman, Nicole 
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图 提高 是 
4.1.29 欧 拉 环 和 汉密尔顿 环 。 考 虑 以 下 4 组 边 定 义 的 图 
0-1 0-2 0-3 1-3 1-4 2-5 2-9 3-6 4-7 4-8 5-8 5-9 6-7 6-9 7-8 
0-1 0-2 0-3 1-3 0-3 2-5 5-6 3-6 4-7 4-8 5-8 5-9 6-7 6-9 8-8 
0-1 1-2 1-3 0-3 0-4 2-5 2-9 3-6 4-7 4-8 5-8 5-9 6-7 6-9 7-8 
4-1 7-9 6-2 7-3 5-0 0-2 0-8 1-6 3-9 6-3 2-8 1-5 9-8 4-5 4-7 


4.1.30 
4.1.31 
4.1.32 
4.1.33 


4.1.34 


4.1.35 


4.1.36 


哪 几 幅 图 含有 欧 拉 环 ( 恰好 包含 了 所 有 的 边 且 没有 重复 的 环 ) ? 哪 几 幅 图 含有 汉 密 尔 
顿 环 〈 恰 好 包含 了 所 有 的 顶点 且 没 有 重复 的 环 ) ? 
图 的 枚 举 。 含 有 VV 个 顶点 和 E 条 边 ( 不 含 平行 边 ) 的 不 同 的 无 向 图 共有 多 少 种 ? 
检测 平行 边 。 设 计 一 个 线性 时 间 的 算法 来 统计 图 中 的 平行 边 的 总 数 。 
奇 环 。 证 明 一 幅 图 能 够 用 两 种 颜色 着 色 ( 二 分 图 ) 当 且 仅 当 它 不 含有 长 度 为 奇数 的 环 。 
符号 图 。 实 现 一 个 Symbol1Graph (不 一 定 必 须 使 用 Graph ) ， 只 需要 遍历 一 遍 图 的 定义 数据 。 
en ee Ry 


ey nee 如 果 一 天 点 出 站 层 因 不 再 过 通 ， 该 顶点 就 被 称 为 关节 点， 
证 明 没有 关节 点 的 图 是 双向 连通 的 。 提 示 : 给 定 任意 一 对 顶点 s 和 t 和 一 条 连接 两 点 的 路 径 ， 
由 于 路 径 上 没有 任何 顶点 为 关节 点 ， 构 造 另 一 条 不 同 的 路 径 连接 s 和 t。 

边 的 连通 性 。 在 一 幅 连通 图 中 ， 如 果 一 条 边 被 删除 后 图 会 被 分 为 两 个 独立 的 连通 分 量 ， 
就 被 称 为 桥 。 没 有 桥 的 图 称 为 边 连 通 图 。 开 发 一 种 基于 深度 优先 搜索 算法 的 数据 类 型 ， 


判断 一 


个 图 是 否 是 边 连 通 图 。 


欧 拉 图 。 为 平面 上 的 图 设计 并 实现 一 份 叫 做 Eu1ideanGraph 的 API, 其 中 图 所 有 顶点 均 有 坐标 。 
实现 一 个 show0 方法 ， 用 StdDraw 将 图 绘 出 。 


562| 4.1.37 图 像 处 理 。 在 一 幅 图 像 中 将 所 有 相 邻 的 、 颜 色相 同 的 点 相连 就 可 以 得 到 一 幅 图 ， 为 这 种 隐 式 定 
563 义 的 图 实现 填充 (flood fill ) 操作 。 
图 实验 是 
4.1.38 随机 图 。 编 写 一 个 程序 ErdosRenyiGraph， 从 命令 行 接受 整数 下 和 五 ， 随 机 生成 互 对 0 到 天 1 
之 间 的 整数 来 构造 一 幅 图 。 注 意 : 生成 器 可 能 会 产生 自 环 和 平行 边 。 
4.1.39 随机 简单 图 。 编 写 一 个 程序 RandomSimp1eGraph， 从 命令 行 接受 整数 天 和 巨 ， 用 均等 的 几率 生 


4.1.40 


4.1.41 


4.1.42 


成 含有 人 个 顶点 和 EE 条 边 的 所 有 可 能 的 简单 图 。 

随机 稀疏 图 。 编 写 一 个 程序 RandomSparseGraph， 根 据 精心 选择 的 一 组 上 和 巨 的 值 生成 随机 的 
稀 玖 图 ， 以 便 用 它 对 由 Erd6s-Renyi 模型 得 到 的 图 进行 有 意义 的 经 验 性 测试 。 

随机 欧 拉 图 。 编 写 一 个 EulideanGraph 的 用 例 (请 见 练习 4.1.36 ) RandomEu1ideanGraph， 用 
随机 在 平面 上 生成 VY 个 点 的 方式 生成 随机 图 ， 然 后 将 每 个 点 和 在 以 该 点 为 中 心 半径 为 4 的 圆 内 
的 其 他 点 相连 。 注 意 : 如 果 & 大 于 阔 值 Vlg 挛 /元 六 ， 那 么 得 到 的 图 几乎 必然 是 连通 的 ， 否 则 得 到 
的 图 几乎 必然 是 不 连通 的 。 

随机 网 格 图 。 编写 一 个 EulideanGraph 的 用 例 RandomGridGraph, 将 VVF 乘 VV 的 网 格 中 的 所 
有 顶点 和 它们 的 相 邻 项 点 相连 ( 参考 练习 1.5.18 ) 。 修 改 代 码 为 图 额外 添加 R 条 随机 的 边 。 对 于 
较 大 的 R， 缩 小 网 格 使 得 总 边 数 保持 在 广 个 左右 。 添 加 一 个 选项 ， 使 得 出 现 一 条 从 顶点 s 到 顶 
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点 v 的 边 的 概率 与 s 到 t 的 欧 拉 距离 成 反比 。 

4.1.43 ”真实 世界 中 的 图 。 从 网 上 找 出 一 幅 巨 型 加 权 图 一 一 可 以 是 一 张 标记 了 距离 的 地 图 ,或 者 是 标明 
了 费用 的 电话 连接 ， 或 是 航班 价目 表 。 编 写 一 段 程序 RandomRealGraph， 从 这 些 顶 点 构成 的 子 
图 中 随机 选取 焉 个 顶点 ， 然 后 再 从 这 些 顶 点 构成 的 子 图 中 随机 选取 五 条 边 来 构造 一 幅 图 。 

4.1.44 ”随机 区 间 图 。 考 虑 数 轴 上 的 VV 个 区 间 的 集合 。 这 样 的 一 个 集合 定义 了 一 幅 区 间 图 ， 图 中 的 每 个 
顶点 都 对 应 一 个 区 间 ， 而 边 则 对 应 两 个 区 间 的 交集 ( 大 小 不 限 ) 。 编 写 一 段 程 序 ， 随 机 生成 大 
小 均 为 4 的 V 个 区 间 ， 然 后 构造 相应 的 区 间 图 。 提 示 : 使 用 二 分 查找 树 。 564 

4.1.45 ”随机 运输 图 。 定 义 运输 系统 的 一 种 方法 是 定义 一 个 顶点 链 的 集合 ， 每 条 顶点 链 都 表示 一 条 连接 
了 多 个 顶点 的 路 径 。 例 如 ， 链 0-9-3-2 定义 了 边 0-9、9-3 和 3-2。 编 写 一 个 EulideanGraph 
的 用 例 RandomTransportation， 从 一 个 输入 文件 中 构造 一 幅 图 文件 的 每 行 均 为 一 条 链 ， 使 
用 符号 名 。 编 辑 一 份 合适 的 输入 使 得 程序 能 够 从 中 构造 一 幅 和 巴黎 地 铁 系 统 相 对 应 的 图 。 
测试 所 有 的 算法 并 研究 所 有 图 模型 的 所 有 参数 是 不 现实 的 。 请 为 下 面 的 每 一 道 题 都 编写 一 段 程 
序 来 处 理 从 和 输入 得 到 的 任意 图 。 这 段 程序 可 以 调用 上 面 的 任意 生成 器 并 对 相应 的 图 模型 进行 实 
验 。 可 以 根据 上 次 实验 的 结果 自己 作出 判断 来 选择 不 同 实验 。 陈 述 结果 以 及 由 此 得 出 的 任何 结论 。 

4.1.46 深度 优先 搜索 中 的 路 径 长 度 。 对 于 各 种 图 的 模型 ， 运 行 实验 并 根据 经 验 判断 DepthFirstPaths 
在 两 个 随机 选 定 的 顶点 之 间 找 到 一 条 路 径 的 概率 并 计算 找到 的 路 径 的 平均 长 度 。 

4.1.47 广度 优先 搜索 中 的 路 径 长 度 。 对 于 各 种 图 的 模型 ， 运 行 实验 并 根据 经 验 判断 Breadth- 
FirstPaths 在 两 个 随机 选 定 的 顶点 之 间 找 到 一 条 路 径 的 概率 并 计算 找到 的 路 径 的 平均 长 度 。 

4.1.48 连通 分 量 。 运 行 实验 随机 生成 大 量 的 图 并 画 出 柱状 图 ,根据 经 验 判 断 各 种 类 型 的 随机 图 中 连通 
分 量 的 数量 的 分 布 情况 。 

4.1.49 双色 问题 。 大 多 数 的 图 都 无 法 用 两 种 颜色 着 色 ， 深 度 优先 搜索 能 够 很 快 发 现 这 一 点 。 对 于 各 种 
图 模型 ， 使 用 经 验 性 的 测试 来 研究 TwoColor 检查 的 边 的 数量 。 565 
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4.2 有 向 图 


在 有 向 图 中 ， 边 是 单 向 的 : 每 条 边 所 连接 的 两 个 顶点 都 是 一 个 有 序 对 ， 它 们 的 邻接 性 是 单 向 的 
( 表 4.2.1 ) 。 许 多 应 用 ( 比如 表示 网 络 、 任 务 调 度 条 件 或 是 电话 的 图 ) 都 是 天 然 的 有 向 图 。 为 实现 
添加 这 种 单 向 性 的 限制 很 容易 也 很 自然 ， 看 起 来 没什么 坏处 。 但 实际 上 这 种 组 合 性 的 结构 对 算法 有 
深刻 的 影响 ， 使 得 有 向 图 和 无 向 图 的 处 理 大 有 不 同 。 本 节 中 ， 我们 会 学 习 搜 索 和 处 理 有 向 图 的 一 些 
经 典 算法 。 


表 4.2.1 实际 生活 中 的 典型 有 向 图 





应 ”用 项 点 边 
食物 链 物种 捕食 关系 
互联 网 连接 网 页 超 链 接 
程序 模块 外 部 引用 
手机 电话 呼叫 
学 术 研究 论文 引用 
金融 股票 交易 
网 络 计算 机 网 络 连 接 

4.2.1 术语 


虽然 我 们 为 有 向 图 的 定义 和 无 向 图 几乎 相同 〈 将 使 用 的 部 分 算法 和 代码 也 是 ) ， 但 仍然 需要 在 
这 里 重复 一 遍 。 为 了 说 明 边 的 方向 性 而 产生 的 细小 文字 差异 所 代表 的 结构 特性 正 是 本 节 的 重点 。 


定义 。 一 幅 有 方向 性 的 图 (或 有 向 图 ) 是 由 一 组 顶点 和 一 组 有 方向 的 边 组 成 的 ， 每 条 有 方向 的 
边 都 连接 着 有 序 的 一 对 顶点 。 


我 们 称 一 条 有 向 边 由 第 一 个 顶点 指出 并 指向 第 二 个 顶点 。 在 一 幅 有 向 图 中 ， 一 个 顶点 的 出 度 为 
由 该 项 点 指出 的 边 的 总 数 ; 一 个 顶点 的 入 度 为 指向 该 顶点 的 边 的 总 数 〈 请 见 图 4.2.1 ) 。 当 上 下 文 的 


意义 明确 时 ， 我 们 在 提 到 有 向 图 中 的 边 时 会 省 略 有 向 二 字 。 一 条 有 向 边 的 第 一 个 顶点 称 为 它 的 头 ， 
第 二 个 顶点 则 被 称 为 它 的 尾 。 将 有 向 边 画 为 由 头 指向 尾 的 一 个 箭头 。 用 v 一 w 来 表示 有 向 图 中 一 条 
由 v 指向 w 的 边 。 和 无 向 图 一 样 ， 本 节 的 代码 也 能 处 理 自 环 和 平行 边 ， 但 它们 不 会 出 现在 例子 中 ， 
在 正文 中 一 般 也 不 会 提 到 它们 。 除 了 特殊 的 图 ， 一 幅 有 向 图 中 的 两 个 项 点 的 关系 可 能 有 4 种 : 没有 
边 相 连 ; 存在 从 v 到 w 的 边 v 一 w; 存在 从 w 到 v 的 边 w 一 v; 既 存 在 v 一 w 也 存在 w 一 v， 即 双向 
的 连接 。 


定义 。 在 一 幅 有 向 图 中 ， 有 向 路 径 由 一 系列 顶点 组 成 ， 对 于 其 中 的 每 个 顶点 都 存在 一 条 有 向 边 
从 它 指向 序列 中 的 下 一 个 顶点 。 有 向 环 为 一 条 至 少 含有 一 条 边 且 起 点 和 终点 相同 的 有 向 路 径 。 
简单 有 向 环 是 一 条 ( 除了 起 点 和 终点 必须 相同 之 外 ) 不 含有 重复 的 顶点 和 边 的 环 。 路 径 或 者 环 
的 长 度 即 为 其 中 所 包含 的 边 数 。 


和 无 环 图 一 样 ， 我 们 假设 有 向 路 径 都 是 简单 的 ， 除 非 我 们 明确 指出 了 某 个 重复 了 的 项 点 〈 像 有 
向 环 的 定义 中 那样 ) 或 是 指明 是 一 般 性 的 有 向 图 。 当 存在 从 v 到 w 的 路 径 时 ， 称 顶点 w 能 够 由 顶点 
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v 达到。 我们 约定 ， 每 个 顶点 都 能 够 达到 它 自己 。 除 了 这 种 情况 之 外 ， 在 有 向 图 中 由 v 能 够 到 达 w 
并 不 意味 着 由 w 也 能 到 达 v。 这 个 不 同 虽然 很 明显 但 非常 重要 ， 后 面 将 会 看 到 这 一 点 。 

要 理解 本 节 中 的 算法 ,你 就 必须 要 理解 有 向 图 中 的 可 达 性 和 无 向 图 中 的 连通 性 的 区 别 。 理 解 这 
种 区 别 可 能 比 你 想象 得 更 困难 。 例 如 ， 尽 管 你 可 能 一 眼 就 能 看 出 一 小 幅 无 向 图 中 的 两 个 顶点 之 间 是 
否 连 通 , 但 是 在 一 小 幅 有 向 图 中 快速 找 出 一 条 有 向 路 径 就 不 那么 容易 了 ， 比 如 图 4.2.2 所 示 的 例子 。 
处 理 有 向 图 就 如 同 在 一 座 只 有 单行 道 的 城市 中 穿梭 ， 而 且 这 些 单行 道 的 方向 是 杂乱 无 章 的 。 在 这 种 
情况 下 ， 想 从 一 处 到 达 另 一 处 会 是 一 件 很 麻烦 的 事 。 但 与 直觉 相反 ,我们 用 来 表示 有 向 图 的 标准 数 
据 结构 甚至 比 无 向 图 的 表示 更 加 简单 ! 
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图 4.2.1 有 向 图 详解 图 4.2.2 在 这 幅 有 向 图 中 ， 从 v 能 够 到 达 w 吗 567 


4.2.2 ”有 向 图 的 数据 类 型 
以 下 这 份 API 以 及 下 一 页 中 的 Digraph 类 和 Graph 类 本 质 上 是 相同 的 (请 见 4.1.2.2 节 框 注 
“Graph 数据 类 型 ”) 。 


表 4.2.2 有 向 图 的 API 
public class Digraph 


DigraphCint V) 创建 一 幅 含 有 个 顶点 但 没有 边 的 有 向 图 
Digraph(In in) 从 输入 流 in 中 读 取 一 幅 有 向 图 
int VO 顶点 总 数 
int EQ 边 的 总 数 
void addEdge(int v, int w) 向 有 向 图 中 添加 一 条 边 v 一 w 
Iterable<Integer> adj (int v) 由 v 指 出 的 边 所 连接 的 所 有 顶点 
Digraph reverse() 该 图 的 反 向 图 
String toString() 对 象 的 字符 串 表示 


4.2.2.1 有 向 图 的 表示 

我 们 使 用 邻接 表 来 表示 有 向 图 ， 其 中 边 v 一 w 表示 为 顶点 v 所 对 应 的 邻接 链表 中 包含 一 个 w 顶 
点 。 这 种 表示 方法 和 无 向 图 几乎 相同 而 且 更 明晰 ， 因 为 每 条 边 都 只 会 出 现 一 次 ， 如 后 面 框 注 “ 有 向 
图 (diagraph ) 的 数据 类 型 ”所 示 。 
4.2.2.2 输入 格式 

由 输入 流 读 取 有 向 图 的 构造 函数 的 代码 与 Graph 类 中 相应 构造 函数 的 代码 完全 相同 一 一 因为 两 者 
的 输入 格式 是 一 样 的 ， 但 所 有 的 边 都 是 有 向 边 。 在 边 列表 的 格式 中 ， 一 对 顶点 v 和 w 表 示 边 v 一 w。 
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4.2.2.3 有 向 图 取 反 


Digraph 的 API 中 还 添加 了 一 个 方法 reverse()。 它 返回 该 有 向 图 的 一 个 副本 ,但 将 其 中 所 有 
边 的 方向 反 转 。 在 处 理 有 向 图 时 这 个 方法 有 时 很 有 用 ， 因 为 这 样 用 例 就 可 以 找 出 “指向 ”每 个 顶点 
的 所 有 边 ， 而 adj O 给 出 的 是 由 每 个 顶点 指出 的 边 所 连接 的 所 有 顶点 。 


4.2.2.4 项 点 的 符号 名 


在 有 向 图 中 ， 人 允许 用 例 使 用 符号 作为 顶点 名 也 更 加 简单 。 要 实现 与 SymbolGraph 类 似 的 
Symbo1Digraph 类 ， 只 需要 将 其 中 的 Graph 字样 都 替换 成 Digraph 即 可 。 

花 一 点 时 间 对 比 一 下 后 面 框 注 中 的 代码 和 示意 图 与 4.1.2.1 节 及 4.1.2.2 节 的 框 注 “Graph 数据 类 
型 ”中 无 向 图 的 代码 是 非常 有 价值 的 。 在 用 邻接 表 表 示 无 向 图 时 ， 如 果 v 在 w 的 链表 中 ， 那 么 w 必 
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Digraph 数据 类 型 





puplic class Digraph 
private firnal 1nt Y; 


t 人 yy x 
Privateé 站 有 Es 


Bag<lnteger>![] ad] 


brivate 


public Digraph(int V) 





thisV = ¥ 
thisE «0 
adi = (Bag<Integer>[])} new Baglvl}; 
for (Cint vy QO; ¥ < VI vt) 
actljlyv] = New Bag<TnNntegqery().: 


public Tnt VY() return V; 


public jnt EC { return E; 1} 


publie void adaEdgeCint v, int W) 
{ 
adj[v].add(w); 


tt 


public Trerable<TInteger> adij(int v) 


return adj[v] | 


public Digraph reverse() 


外 
Digraph R = new Digraph(V); 
for (int V = 0; Vv < Vi v++) 
for (int w : adj(v)) 
R.addEdge(w, Vv); 
return R; 
+ 


Digraph 数据 类 型 与 Graph 数据 类 型 (请 见 4.1.2.2 框 注 
“Graph 数据 类 型 ” ) 基本 相同 ， 区 别 是 addEdge() 只 调用 了 一 
次 add()， 而且 它 还 有 一 个 reverse() 方法 来 返回 图 的 反问 图 。 
因为 两 者 的 代码 非常 相似 ， 所 以 省 略 了 toStringQ 方法 (请 见 
表 4.1.2 ) 和 从 输入 流 中 读 取 图 的 构造 函数 。 


然 也 在 v 的 链表 中 。 但 在 有 向 图 中 这 种 对 称 性 是 不 存在 的 。 这 个 区 别 在 有 向 图 的 处 理 中 影响 深远 。 
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4.2.3 ”有 向 图 中 的 可 达 性 

在 无 向 图 中 介绍 的 第 一 个 算法 就 是 4.1.3.2 节 中 的 DepthFirstSearch， 它 解决 了 单 点 连通 性 的 
问题 ， 使 得 用 例 可 以 判定 其 他 顶点 和 给 定 的 起 点 是 否 连通 。 使 用 完全 相同 的 代码 ， 将 其 中 的 Graph 
替换 为 Digraph， 也 可 以 解决 一 个 有 向 图 中 的 类 似 问题 。 

单 点 可 达 性 给 定 一 幅 有 向 图 和 一 个 起 点 s， 回 答 “ 是 否 存 在 一 条 从 s 到 达 给 定 顶点 vV 的 有 向 路 
径 ? ”等 类 似 问题 。 

算法 4.4 中 的 DirectedDFS 类 将 DepthFirstSearch 稍 加 润色 并 实现 了 以 下 API。 


表 4.2.3 有 向 图 的 可 达 性 API 


public class DirectedDFS 





DirectedDFS(Digraph G, int s) 在 G 中 找到 从 s 可 达 的 所 有 顶点 
DirectedDFS(Digraph G， 在 G 中 找到 从 sources 中 的 所 有 顶点 可 达 的 所 有 
Iterable<Integer> sources) 顶点 
boolean marked(int v) v 是 可 达 的 吗 
在 添加 了 一 个 接受 多 个 顶点 的 构造 函数 之 后 , 这 份 API 使 得 用 例 能 够 解决 一 个 更 加 一 般 的 问题 。 
多 点 可 达 性 给 定 一 幅 有 向 图 和 顶点 的 集合 ， 回 答 “ 是 否 存 在 一 条 从 集合 中 的 任意 顶点 到 达 给 定 


顶点 V 的 有 向 路 径 ? ”等 类 似 问 题 。 

我 们 在 5.4 节 中 解决 经 典 的 字符 串 处 理 问题 时 会 再 次 遇 到 这 个 问题 。 

DirectedDFS 使 用 了 解决 图 处 理 的 标准 范例 和 标准 的 深度 优先 搜索 来 解决 这 些 问 题 。 它 对 每 个 
起 点 调用 递归 方法 dfs()， 以 标记 遇 到 的 任意 项 点。 


命题 D。 在 有 向 图 中 ， 深 度 优先 搜索 标记 由 一 个 集合 的 顶点 可 达 的 所 有 顶点 所 需 的 时 间 与 被 标 
记 的 所 有 顶点 的 出 度 之 和 成 正比 。 
证 明 。 同 4.1.3.2 节 的 命题 A。 

图 4.2.3 显示 了 这 个 算法 在 处 理 有 向 样 图 时 的 操作 轨迹 。 这 份 轨迹 比 相 应 的 无 向 图 算法 的 轨 


迹 稍稍 简单 些 ， 因 为 深度 优先 搜索 本 质 上 是 一 种 适用 于 人 处理 有 向 图 的 算法 ， 每 条 边 都 只 会 被 表示 
一 次 。 研 究 这 些 轨 迹 有 助 于 巩固 你 对 有 向 图 中 深度 优先 搜索 的 理解 。 


算法 4.4 有 向 图 的 可 达 性 





public class DirectedDFS 


{ 


private boolean[] marked; 


public DirectedDFS(Digraph G, int s) 
marked = new boolean[G.VOJ]; 
Uts(G, Ss 

下 


public DirectedDFS(Digraph G, Iterable<Integer> sources) 
元 
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marked = new boolean[G.VO]; 
for (Cint s : sources) 
if (CImarked[s]) dfs(G, s); 


} 
private void dfs(Digraph G, int v) % java DirectedDFS tinyDG.txt 1 
1 
marked[v] = true; 
for Cint w : G.adj(v)) % java DirectedDFS tinyDG.txt 2 
if (CImarked[w]) dfs(G, w; 的 下 


% java DirectedDFS tinyDG.txt 1 2 6 
public boolean marked(int v) 0 L234 SO VI LL 
{ return marked[v]; 了 


public static void main(String[] args) 


下 
Digraph G = new Digraph(new In(args[0])); 


Bag<Integer> sources = new Bag<Integer>() ; 
for (int i1 = 1; i < args.length; i++) 
sources.add(Integer.parseInt(args[i])); 


DirectedDFS reachable = new DirectedDFS(G, sources); 


for (int v = 0; v < G.VO; Vv++) 


if (reachable.marked(v)) StdOut.print(v + " "); 
StdOut.print1n(); 
lL 
} 
这 份 深度 优先 搜索 的 实现 使 得 用 例 能 够 判断 从 给 定 的 一 个 或 者 一 组 顶点 能 到 达 哪 些 其 他 顶点 。 


4.2.3.1 ”标记 一 清除 的 垃圾 收集 

多 点 可 达 性 的 一 个 重要 的 实际 应 用 是 在 典型 的 内 存 管理 系统 中 ， 包 括 许多 Java 的 实现 。 在 一 
幅 有 向 图 中 ， 一 个 顶点 表示 一 个 对 象 ， 一 条 边 则 表示 一 个 对 象 对 男 一 个 对 象 的 引用 。 这 个 模型 很 好 
地 表现 了 运行 中 的 Java 程序 的 内 存 使 用 状况 。 在 程序 执行 的 任何 时 候 都 有 某 些 对 象 是 可 以 被 直接 
访问 的 ， 而 不 能 通过 这 些 对 象 访问 到 的 所 有 对 象 都 应 该 被 回收 以 便 释放 内 存 ( 请 见 图 4.2.4 ) 。 标 
记 一 清除 的 垃圾 回收 策略 会 为 每 个 对 象 保留 一 个 位 做 垃圾 收集 之 用 。 它 会 周期 性 地 运行 一 个 类 似 于 
DirectedDFS 的 有 向 图 可 达 性 算法 来 标记 所 有 可 以 被 访问 到 的 对 象 ， 然 后 清理 所 有 对 象 ， 回 收 没有 
被 标记 的 对 象 ， 以 腾 出 内 存 供 新 的 对 象 使 用 。 
4.2.3.2 ”有 向 图 的 寻 路 

DepthFirstPaths ( 4.1.4.1 节 算 法 4.1) 和 BreadthFirstPaths (4.1.5 节 算 法 4.2 ) 也 都 是 有 
向 图 处 理 中 的 重要 算法 。 和 刚才 一 样 ， 同 样 的 API 和 代码 ( 仅 将 Graph 替换 为 Digraph ) 也 能 够 
高 效 地 解决 以 下 问题 。 

单 点 有 向 路 径 给 定 一 幅 有 向 图 和 一 个 起 点 s， 回 答 “ 从 s 到 给 定 目的 顶点 Vv 是 否 存 在 一 条 有 向 
路 径 ? 如 果 有 ， 找 出 这 条 路 径 。” 等 类 似 问 题 。 

单 点 最 短 有 向 路 径 给 定 一 幅 有 向 图 和 一 个 起 点 s， 回 答 “ 从 s 到 给 定 目的 顶点 V 是 否 存在 一 条 
有 向 路 径 ? 如 果 有 ， 找 出 其 中 最 短 的 那 条 (所 含 边 数 最 少 ) 。” 等 类 似 问题 。 
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图 4.2.3 ”使 用 深度 优先 搜索 在 一 幅 有 向 图 中 寻找 能 够 从 顶点 0 到 达 的 所 有 顶点 的 轨迹 
在 本 书 的 网 站 上 以 及 本 节 最 后 的 练习 中 ， 我 们 将 以 上 问题 的 答案 分 别 命名 为 DepthFirst- [57 


DirectedPaths 和 BreadthFirstDirectedPaths。 


4.2.4 环 和 有 向 无 环 图 


S73 


在 和 有 向 图 相关 的 实际 应 用 中 ， 有 向 环 特别 的 重要 。 没 有 计算 机 的 帮助 ， 在 一 幅 普 通 的 有 向 图 
中 找 出 有 向 环 可 能 会 很 困难 。 从 原则 上 来 说 ,一 幅 有 向 图 可 能 含有 大 量 的 环 ; 在 实际 应 用 中 ， 我 们 
一 般 只 会 重点 关注 其 中 一 小 部 分 , 或 者 只 想 知 道 它们 是 否 存在 (请 见 图 4.2.5 ) 。 
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图 4.2.4 垃圾 回收 示意 图 图 4.2.5 这 幅 有 向 图 含有 有 向 环 吗 

为 了 在 有 向 图 处 理 中 研究 有 向 环 的 作用 更 加 有 趣 , 我 们 来 看 看 下 面 这 个 有 向 图 模型 的 原型 应 用 。 
4.2.4.1 调度 问题 

一 种 应 用 广泛 的 模型 是 给 定 一 组 任务 并 安排 它们 的 执行 顺序 ， 限 制 条 件 是 这 些 任 务 的 执行 方法 
和 起 始 时 间 。 限 制 条件 还 可 能 包括 任务 的 时 耗 以 及 消耗 的 其 他 资源 。 最 重要 的 一 种 限制 条 件 叫做 优 
先 级 限制 ， 它 指明 了 哪些 任务 必须 在 哪些 任务 之 前 完成 。 不 同类 型 的 限制 条 件 会 产生 不 同类 型 不 同 
难度 的 调度 问题 。 研 究 者 已 经 解决 了 上 千 种 不 同 的 此 类 问题 ， 而 且 还 在 为 其 中 许多 寻找 更 好 的 算法 。 
以 一 个 正在 安排 课程 的 大 学 生 为 例 ， 有 些 课程 是 其 他 课程 的 先导 课程 ， 如 图 4.2.6 所 示 。 
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图 4.2.6 有 优先 级 限制 的 调度 问题 
如 果 再 假设 该 学 生 一 次 只 能 修一 门 课 ， 实 际 上 就 遇 到 了 下 面 这 个 问题 。 
优先 级 限制 下 的 调度 问题 。 给 定 一 组 需要 完成 的 任务 ， 以 及 一 组 关于 任务 完成 的 先后 次 序 的 优 
先 级 限制 。 在 满足 限制 条 件 的 前 提 下 应 该 如 何 安排 并 完成 所 有 任务 ? 
对 于 任意 一 个 这 样 的 问题 ， 我 们 都 可 以 马上 画 出 一 张 有 向 图 ， 其 中 顶点 对 应 任务 ， 有 向 边 对 应 


到 这 一 点 ) 。 


2 (2 一 8) 
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在 有 向 图 中 , 优先 级 限制 下 的 调度 问题 等 价 于 下 面 这 个 基本 的 问题 。 
拓扑 排序 。 给 定 一 幅 有 向 图 ， 将 所 有 的 顶点 排序 ， 使 得 所 有 的 
有 向 边 均 从 排 在 前 面 的 元 素 指向 排 在 后 面 的 元 素 ( 或 者 说 明 无 法 做 


图 4.2.8 为 示例 的 拓扑 排序 。 所 有 的 边 都 是 向 下 的 ， 所 以 它 清晰 


地 表示 了 这 幅 有 向 图 模型 所 代表 的 有 优先 级 限制 的 调度 问题 的 一 个 
解决 方法 : 按照 这 个 顺序 ， 该 同学 可 以 在 满足 先导 课程 限制 的 条 件 


图 4.2.7 标准 有 向 图 模型 


有 代表 性 的 应 用 。 
表 4.2.4 ”拓扑 排序 的 典型 应 用 
应 ”用 项 点 边 

任务 调度 任务 优先 级 限制 
课程 安排 课程 先导 课程 限制 
继承 Java 类 extends 关系 
电子 表格 单元 格 (cell ) 公式 

符号 链接 文件 名 链接 


4.2.4.2 ”有 向 图 中 的 环 

如 果 任 务 x 必须 在 任务 y 之 前 完成 ， 而 任务 y 必须 
在 任务 z 之 前 完成 , 但 任务 z 又 必须 在 任务 x 之 前 完成 
那 肯定 是 有 人 搞 错 了 ， 因 为 这 三 个 限制 条 件 是 不 可 能 被 
同时 满足 的 。 一 般 来 说 ， 如 果 一 个 有 优先 级 限制 的 问题 
中 存在 有 向 环 ， 那 么 这 个 问题 肯定 是 无 解 的 。 要 检查 这 
种 错误 ， 需 要 解决 下 面 这 个 问题 。 

有 向 环 检测 。 给 定 的 有 向 图 中 包含 有 向 环 吗 ? 如 果 
有 ， 按 照 路 径 的 方向 从 某 个 顶点 并 返回 自己 来 找到 环 上 
的 所 有 顶点 。 

一 幅 有 向 图 中 含有 的 环 的 数量 可 能 是 图 的 大 小 的 指 
数 级 别 〈 请 见 练习 4.2.11 ) ， 因 此 我 们 只 需要 找 出 一 个 环 
即 可 ， 而 不 是 所 有 环 。 在 任务 调度 和 其 他 许多 实际 问题 
中 不 允许 出 现 有 向 环 ， 因 此 不 含有 环 的 有 向 图 就 变 得 很 
特殊 。 


定义 。 有 向 无 环 图 (DAG ) 就 是 一 幅 不 含有 环 的 有 向 图 。 


所 有 边 均 
指向 下 方 


(7) 


-AOE Bo 


下 修 完 所 有 课程 。 这 个 应 用 是 很 典型 的 一 一 表 4.2.4 列举 了 其 他 一 些 


先导 课程 条 
件 全 部 满足 


Calculus 

Linear Algebra 
Introduction to CS 
Advanced Programming 
Algorithms 
Theoretical CS 
Artificial Intelligence 
Robotics 

Machine Learning 
Neural Networks 
Databases 

Scientific Computing 


Computational Biology 


图 4.2.8 拓扑 排序 


因此 ， 解 决 有 向 图 检测 的 问题 可 以 回答 下 面 这 个 问题 : 一 幅 有 向 图 是 有 向 无 环 图 吗 ? 基于 深度 
优先 搜索 来 解决 这 个 问题 并 不 困难 ， 因 为 由 系统 维护 的 递归 调用 的 栈 表示 的 正 是 “当前 ”正在 遍历 
的 有 向 路 径 〈 就 好 像 用 Tremaux 方法 探索 迷宫 时 的 那 条 绳子 一 样 ) 。 一 旦 我 们 找到 了 一 条 边 v 一 w 
且 w 已 经 存在 于 栈 中 ， 就 找到 了 一 个 环 ， 因 为 栈 表示 的 是 一 条 由 w 到 v 的 有 向 路 径 ,而 v 一 w 正 好 
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补 全 了 这 个 环 。 同 时 ， 如 果 没 有 找到 这 样 的 边 ， 那 就 意味 着 这 幅 有 向 图 是 无 环 的 ， 见 图 4.2.9。 请 见 
后 面 框 注 “ 寻 找 有 向 环 ” 中 的 DirectedCycle 基于 这 个 思想 实现 了 表 4.2.5 中 的 API。 


表 4.2.5 有 向 环 的 API 





pub1i 


Cc Class DirectedCycle 
DirectedCycle(Digraph G) 寻找 有 癌 环 的 构造 函数 
boolean hasCycle() G 是否 含 有 有 问 环 


Iterable<Integer> cycle() 有 向 环 中 的 所 有 顶点 ( 如 果 存 在 的 话 ) 





寻找 有 向 环 


publ 


marked[] edgeTo[] onStack[] 
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1 0 1 
1 5 1 
1 4 F 
检查 5 号 项 点 100111 ---450 1'00 1 


图 4.2.9 在 一 幅 有 向 图 中 寻找 环 


iC aliass DirectedCycle 

private booleanf] marked; 

private int[] edgeTo; 
private Stack<Integer> cycle;  // 有 向 环 中 的 所 有 顶点 ( 如果 存 在 ) 
private boolean[] onStack; // 递归 调用 的 栈 上 的 所 有 顶点 
public DirectedCycle (Digraph 6G) 


Oneacs new ON Able VOJ; 














(marked[lv]) dfs Se (0) 
1 
private void dfs(Digraph &, 2 (5) 
3 |4 
onStack[v] = true; 本 (4) 
marked[{v] = true; 
(INt WwW II G&G,ad]j(v)) (3) 
下 Ces re return; v Ww x 有 向 环 
else 1f (imarke tLw}) -Pt 
:{ adaefSfug 人， W}, 5 区 人 全 
else if Constack[w]) 3543 
{ g 
念 测 | 时 
cycle = new Stack<Integer>(); 有 向 环 检测 的 轨迹 
for (int x = v; x != w; x = edgeTo[x]) 


- 


cycle.push(x); 


cycle.push(w); 
cycle.push(v); 


onStack[v] = false; 
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public boolean hasCycle() 
{ return cycle != null; } 


public Iterable<Integer> cycle() 
{ return cycle; +} 


该 类 为 标准 的 递归 dfsQ 〇 方法 添加 了 一 个 布尔 类 型 的 数组 onStack[] 来 保存 递归 调用 期 间 栈 上 的 
所 有 顶点 。 当 它 找到 一 条 边 v 一 w 且 w 在 栈 中 时 ， 它 就 找到 了 一 个 有 向 环 。 环 上 的 所 有 顶点 可 以 通过 
edgeTo[] 中 的 链接 得 到 。 





在 执行 dfs(G,v) 时 ， 查 找 的 是 一 条 由 起 点 到 v 的 有 向 路 径 。 要 保存 这 条 路 径 ，Di rec- 
tedCycle 维护 了 一 个 由 顶点 索引 的 数组 onStack[] ， 以 标记 递归 调用 的 栈 上 的 所 有 顶点 (在 调用 
dfs(G,v) 时 将 onStack[v] 设 为 true， 在 调用 结束 时 将 其 设 为 false ) 。DirectedCycle 同时 也 
使 用 了 一 个 edgeTo[] 数组 ， 在 找到 有 向 环 时 返回 环 中 的 所 有 顶点 , 方法 和 DepthFirstPaths (请 
见 算法 4.1 ) 以 及 BreadthFirstPaths (请 见 算法 4.2 ) 相同 。 
4.2.4.3 ”顶点 的 深度 优先 次 序 与 拓扑 排序 

优先 级 限制 下 的 调度 问题 等 价 于 计算 有 向 无 环 图 中 的 所 有 顶点 的 拓扑 排序 ， 因 此 有 表 4.2.6 所 
示 的 API。 


表 4.2.6 拓扑 排序 的 API 


public class Topological 





Topological (Digraph G) 拓扑 排序 的 构造 函数 
boolean isDAGO G 是 有 向 无 环 图 吗 
Iterable<Integer> order(Q) 拓扑 有 序 的 所 有 顶点 


命题 E。 当 且 仅 当 一 幅 有 向 图 是 无 环 图 时 它 才 能 进行 拓扑 排序 。 


证 明 。 如 果 一 幅 有 向 图 含有 一 个 环 ， 它 就 不 可 能 是 拓扑 有 序 的 。 与 此 相反 ,我们 将 要 学 习 的 算 
法 能 够 计算 任意 有 向 无 环 图 的 拓扑 顺序 。 


值得 注意 的 是 ， 实 际 上 我 们 已 经 见 过 一 种 拓扑 排序 的 算法 : 只 要 添加 一 行 代码 ， 标 准 深度 优先 
搜索 程序 就 能 完成 这 项 任务 ! 要 做 到 这 一 点 ， 我 们 先 来 看 看 后 面 框 注 “有 向 图 中 基于 深度 优先 搜索 
的 顶点 排序 ”的 DepthFirstOrder 类 。 它 的 基本 思想 是 深度 优先 搜索 正好 只 会 访问 每 个 顶点 一 次 。 
如 果 将 dfs 0) 的 参数 质点 保存 在 一 个 数据 结构 中 ， 遍 历 这 个 数据 结构 实际 上 就 能 访问 图 中 的 所 有 项 
点 ,遍历 的 顺序 取决 于 这 个 数据 结构 的 性 质 以 及 是 在 递归 调用 之 前 还 是 之 后 进行 保存 。 在 典型 的 应 
用 中 ， 人 们 感 兴趣 的 是 顶点 的 以 下 3 种 排列 顺序 。 

口 前 序 : 在 递归 调用 之 前 将 顶点 加 入 队列 。 

口 后 序 : 在 递归 调用 之 后 将 顶点 加 入 队列 。 

口 道 后 序 . 在 递归 调用 之 后 将 顶点 压 人 栈 。 

图 4.2.10 所 示 的 是 用 DepthFirstOrder 处 理 有 序 无 环 样 图 所 产生 的 轨迹 。 它 的 实现 简 
单 ， 支 持 在 图 的 高 级 处 理 算法 中 十 分 有 用 的 pre()、post() 和 reversePost() 方法 。 例 如 ， 
Topological 类 中 的 order0 方法 就 调用 了 reversePost() 方法 。 








前 序 就 是 dfs () 
的 调用 顺序 
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a 

二 

on 

一 

(oO 

AN 
Oooo ob 
Nn 
天 ADAP 
Pppp 
aaag 
Ep 
可 
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后 序 就 是 顶点 遍 
历 完成 的 顺序 
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图 4.2.10 计算 有 向 图 中 顶点 的 深度 优先 次 序 〈 前 序 、 后 序 和 逆 后 序 ) 


有 向 图 中 基于 深度 优先 搜索 的 顶点 排序 





public «iass DepthFirstOrder 


private booleanl: marked: 

private Queue<Integer> pre; 

private Queue<Integer> post; 
private Stack<Integer> reversePost; 


// 所 有 顶点 的 前 序 排列 
// 所 有 顶点 的 后 序 排列 
// 所 有 顶点 的 逆 后 序 排列 
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public DepthFirstOrder(Digraph G) 


pre = _ new Queue<Integer>() ; 
post = new Queue<Integer>(); 
reversePost = new Stack<Integer>(); 
marked = few boolean[lG.YVO]; 
for (nt v 0; vy G,V 

if (Cl!markedfi dfs(t Vv 


private void dfstDigraph G, int 


pre.enqueue (Vv); 


marked[v| true; 


for Cint w 





post.enqueue(v); 
reversePost.push(v); 
} 


public Iterable<Integer> preQO 

{ return pre; } 

public Iterable<Integer> post() 

{ return post; } 

public Iterable<Integer> reversePost() 
{ return reversePost; } 


1 
于 


该 类 允许 用 例 用 各 种 顺序 遍历 深度 优先 搜索 经 过 的 所 有 顶点 。 这 在 高 级 的 有 向 图 处 理 算法 中 非常 有 
用 ， 因 为 搜索 的 递归 性 使 得 我 们 能 够 证 明 这 段 计算 的 许多 性 质 ( 例如 命题 F) 。 


命题 4.5 ”拓扑 排序 


public class Topological 


private Iterable<Integer> order; // 顶点 的 拓扑 顺序 
public Topological(Digraph ©) 
{ 
DirectedCycle cyclefinder = new DirectedCycle(G) ; 
if (!cyclefinder.hasCycle()) 
{ 
DepthFirstOrder dfs = new DepthFirstOrder (OQ); 
order = dfs.reversePost(); 
} 
有 


public Iterable<Integer> order() 
{ return order; } 

public boolean isDAGO) 

{ return order !=null; } 
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public static void main(String[] args) 


{ 
String filename = args[0]; 
String separator = args[1]; 
SymbolDigraph sg = new SymbolDigraph(filename, separator); 
Topological top = new Topological(sg.GO); 


for (int v : top.order()) 
StdOut.printlin(sg.name(v)); 


} 


这 段 代 码 使 用 了 DepthFirstOrder 类 和 DirectedCycle 类 来 返回 一 幅 有 向 无 环 图 的 拓扑 排序 。 
其 中 的 测试 代码 解决 了 一 幅 Symbol1Digraph 中 有 优先 级 限制 的 调度 问题 。 在 给 定 的 有 向 图 包含 环 时 ， 
order() 方法 会 返回 nul11， 和 否则 会 返回 一 个 能 够 给 出 拓扑 有 序 的 所 有 顶点 的 迭代 器 。 这 里 省 略 了 关于 
Symbo1Digraph 的 代码 ， 因 为 它 和 SymbolGraph ( 请 见 表 4.1.1 ) 的 代码 几乎 完全 相同 ， 只 需 把 所 有 的 
Graph 替换 为 Digraph 即 可 。 


命题 F。 一 幅 有 向 无 环 图 的 拓扑 排序 即 为 所 有 顶点 的 逆 后 序 排列 。 


证 明 。 对 于 任意 边 v 一 WwW， 在 调用 dfs(Cv) 时 ， 下 面 三 种 情况 必 有 其 一 成 立 〈 请 见 图 4.2.11) 。 
口 dfs(w) 已 经 被 调用 过 且 已 经 返回 了 (w 已 经 被 标记 ) 。 
口 dfs(w) 还 没有 被 调用 (w 还 未 被 标记 ) ， 因 此 v 一 w 会 直接 或 间接 调用 并 返回 
dfs(w)， 且 dfs(w) 会 在 dfs(v) 返回 前 返回 。 
口 dfs(w) 已 经 被 调用 但 还 未 返回 。 证 明 的 关键 在 于 ,在 有 向 无 环 图 中 这 种 情况 是 不 可 能 出 
现 的 , 这 是 由 于 递归 调用 链 意 味 着 存在 从 w 到 v 的 路 径 , 但 存在 vw 则 表示 存在 一 个 环 。 
在 两 种 可 能 的 情况 中 ,dfs(w) 都 会 在 dfs(v) 之 前 完成 ， 因 此 在 后 序 排列 中 w 排 在 Vv 之 前 而 
在 逆 后 序 中 w 排 在 v 之 后 。 因 此 任意 一 条 边 v 一 w 都 如 我 们 所 愿 地 从 排名 较 前 顶点 指向 排名 较 后 的 
顶 扎 。 


% more jobs .txt 

Algorithms/Theoretical CS/Databases/Scientific Computing 
Introduction to CS/Advanced Programming/Algorithms 

Advanced Programming/Scientific Computing 

Scientific Computing/Computational Biology 

Theoretical CS/Computational Biology/Artificial Intelligence 
Linear Algebra/Theoretical CS 

Calculus/Linear Algebra 


Artificial Intelligence/Neural Networks/Robotics/Machine Learning 
Machine Learning/Neural Networks 


% java Topological jobs.txt "/" 
Calculus 

Linear Algebra 

Introduction to CS 


Advanced Programming 
Algorithms 

Theoretical CS 
Artificial Intelligence 
Robotics 

Machine Learning 

Neural Networks 


Databases 
Scientific Computing 
Computational Biology 


Topological 类 ( 请 见 算法 4.5 ) 的 实现 使 
用 了 深度 优先 搜索 来 对 有 向 无 环 图 进行 拓扑 排 
序 。 图 4.2.11 为 排序 的 轨迹 。 


命题 G。 使 用 深度 优先 搜索 对 有 向 无 环 图 进 
行 拓扑 排序 所 需 的 时 间 和 V+tE 成 正比 。 


证 明 。 由 代码 可 知 ， 第 一 遍 深度 优先 搜索 保 
证 了 不 存在 有 向 环 ， 第 二 遍 深度 优先 搜索 产 
生 了 顶点 的 逆 后 序 排序 。 两 次 搜索 都 访问 了 
所 有 的 顶点 和 所 有 的 边 ， 因 此 它 所 需 的 时 间 
和 各 VtE 成 正比 。 


尽管 算法 很 简单 ， 但 是 它 被 忽略 了 很 多 年 ， 
比 它 更 流行 的 是 一 种 使 用 队列 储存 顶点 的 更 加 直 
观 的 算法 。 (请 见 练习 4.2.30 ) 

在 实际 应 用 中 ， 拓 扑 排 序 和 有 向 环 的 检测 总 
会 一 起 出 现 ， 因 为 有 向 环 的 检测 是 排序 的 前 提 。 
例如 ， 在 一 个 任务 调度 应 用 中 ， 无 论 计划 如 何 安 
排 ， 其 背后 的 有 向 图 中 包含 的 环 意味 着 存在 一 个 
必须 被 纠正 的 严重 错误 。 因 此 ， 解 决 任务 调度 类 
应 用 通常 需要 以 下 3 步 : 

口 指明 任务 和 优先 级 条 件 ; 
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582 





dfs(0) 
dfs(5) 
dfs(4) 
4 完成 


在 dfs(0) 完 成 之 前 ， 
| 处 理 顶 点 0 的 未 被 
5 完成 < 标记 的 相 邻 顶点 5 


dfs(1) 
1 完成 
dfs(6) 
dfs(9) 
dfs(11) 
dfs(12) 
12 完成 
11 完成 
dfs(10) 
10 完成 
检查 12 
9 完成 
检查 4 
6 完成 
0 完成 
检查 1 
dfs(2) 
检查 0 
dfs(3) 
检查 5 
3 完成 
2 完成 
检查 3 
检查 4 
检查 5 
检查 6 
dfs(7) 
检查 6 
7 完成 
dfs(8) 
检查 7 
8 完成 
检查 9 
检查 10 
检查 11 
检查 12 


的 dfs(5) 就 已 经 完 
成 ， 因 此 0 一 5 是 
向 上 指 的 






在 dfs(7) 完 成 之 前 ， 
处 理 顶 点 7 的 已 被 标 
记 的 相 邻 顶点 6 的 
dfs(6) 就 已 经 完成 ， 
因此 7 一 6 是 向 上 指 的 


所 有 的 边 都 是 指向 (7) 
上 的 ， 颠倒 过 来 就 
是 一 次 拓扑 排序 


逆 后 序 就 是 顶点 
遍历 完成 顺序 的 
逆 (从 下 往 上 ) 


图 4.2.11 有 向 无 环 图 的 逆 后 序 是 拓扑 排序 


口 不 断 检测 并 去 除 有 向 图 中 的 所 有 环 ， 以 确保 存在 可 行 方案 的 ; 


口 使 用 拓扑 排序 解决 调度 问题 。 


类 似 地 ， 调 度 方案 的 任何 变动 之 后 都 需要 再 次 检查 是 否 存 在 环 (使 用 DirectedCycle 类 ) ， 582 


然后 在 计算 新 的 调度 安排 (使 用 Topological 类 ) 。 
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4.2.5 有 向 图 中 的 强 连 通 性 


在 前 文中 ， 我 们 仔细 区 别 了 有 向 图 中 的 可 达 性 和 无 向 图 中 的 连通 性 。 在 一 幅 无 向 图 中 ， 如 果 有 


一 条 路 径 连 接 顶 点 Yv 和 w, 则 它们 就 是 连通 的 一 一 既 可 以 由 这 条 路 径 从 w 到 达 v, 也 可 以 从 v 到 达 w。 
相反 ， 在 一 幅 有 向 图 中 ， 如 果 从 顶点 v 有 一 条 有 向 路 径 到 达 w， 则 顶点 w 是 从 项 点 v 可 达 的 , 但 从 


w 到 达 v 的 路 径 可 能 存在 也 可 能 不 存在 。 在 对 有 向 图 的 研究 中 ， 我 们 也 会 考虑 与 无 向 图 中 的 连通 性 


类 似 的 一 个 问题 。 


定义 。 如 果 两 个 顶点 v 和 w 是 互相 可 达 的 ， 则 称 它们 为 强 连通 的 。 也 就 是 说 ， 既 存在 一 条 从 vv 
到 w 的 有 向 路 径 ， 也 存在 一 条 从 w 到 v 的 有 向 路 径 。 如 果 一 幅 有 向 图 中 的 任意 两 个 顶点 都 是 强 


连通 的 ， 则 称 这 幅 有 向 图 也 是 强 连 通 的 。 


图 4.2.12 给 出 了 几 个 强 连 通 图 的 例子 。 从 这 些 例子 中 你 可 以 看 
到 ， 环 在 强 连通 性 的 理解 上 起 着 重要 的 作用 。 事 实 上 ， 回 忆 一 下 一 
条 普通 的 有 向 环 可 能 含有 重复 的 顶点 就 很 容易 知道 ， 两 个 顶点 是 强 
连通 的 当 且 仅 当 它们 都 在 一 个 普通 的 有 向 环 中 (证 明 : 画 出 从 v 到 
w 和 从 w 到 v 的 路 径 即 可 ) 。 
4.2.5.1 强 连通 分 量 

和 无 向 图 中 的 连通 性 一 样 ， 有 向 图 中 的 强 连通 性 也 是 一 种 顶点 
之 间 平 等 关系 ， 因 为 它 有 着 以 下 性 质 。 

口 自 反 性 : 任意 顶点 v 和 自己 都 是 强 连通 的 。 

口 对 称 性 : 如 果 v 和 ww 是 强 连 通 的 , 那么 w 和 v 也 是 强 连 通 的 。 

口 传递 性 : 如 果 v 和 w 是 强 连 通 的 且 w 和 x 也 是 强 连通 的 ， 那 

么 v 和 x 也 是 强 连 通 的 。 

作为 一 种 平等 关系 ， 强 连通 性 将 所 有 顶点 分 为 了 一 些 平等 的 部 
分 ， 每 个 部 分 都 是 由 相互 均 为 强 连通 的 项 点 的 最 大 子 集 组 成 的 。 我 
们 将 这 些 子 集 称 为 强 连通 分 量 ， 请 见 图 4.2.13。 样 图 tinyDG.txt 含 
有 5 个 强 连 通 分 量 。 一 个 含有 了 个 顶点 的 有 问 图 含有 1 ~ 和 个 强 连 
通 分 量 一 一 一 个 强 连通 图 只 含有 一 个 强 连通 分 量 ， 而 一 个 有 向 无 环 
图 中 则 含有 了 个 强 连通 分 量 。 需 要 注意 的 是 强 连通 分 量 的 定义 是 基 


2 
cq 


图 4.2.12 强 连通 的 有 向 图 


于 顶点 的 ， 而 非 边 。 有 些 边 连接 的 两 个 顶点 都 在 同一 个 强 连通 分 量 中 ， 而 有 些 边 连 接 的 两 个 顶点 则 
在 不 同 的 强 连 通 分 量 中 。 后 者 不 会 出 现在 任何 有 向 环 之 中 。 与 识别 连通 分 量 在 无 向 图 中 的 重要 性 一 









次 


(SP 


图 4.2.13 一 幅 有 向 图 和 它 的 强 连 通 分 量 


样 , 在 有 向 图 的 处 理 中 识别 强 连通 分 量 也 是 非常 重要 的 。 
4.2.5.2 ”应 用 举例 

在 理解 有 向 图 的 结构 时 ， 强 连通 性 是 一 种 非常 重要 
的 抽象 ， 它 突出 了 相互 关联 的 几 组 顶点 ( 强 连通 分 量 ) 。 
例如 ， 强 连通 分 量 能 够 帮助 教科 书 的 作者 决定 哪些 话题 
应 该 被 归 为 一 类 ， 或 帮助 程序 员 组 织 程序 的 模块 ( 请 见 
表 4.2.7) 。 图 4.2.14 是 一 个 生态 学 的 例子 。 这 幅 有 向 图 
描绘 的 是 各 种 生物 之 间 的 食物 链 模型 ， 其 中 顶点 表示 物 


种 ， 而 从 一 个 顶点 指向 另 一 个 顶点 的 一 条 边 则 表示 
指向 项 点 的 物种 对 指出 项 点 的 物种 的 捕食 关系 。 这 
些 有 向 图 ( 其 中 物种 和 捕食 关系 都 是 经 过 仔细 选择 
和 研究 的 ) 的 科学 研究 有 效 地 帮助 了 生态 学 家 解决 
生态 系统 中 的 一 些 基本 问题 。 这 种 有 向 图 中 的 强 连 
通 分 量 能 够 帮助 生态 学 家 理解 食物 链 中 能 量 的 流动 。 
图 4.2.17 所 示 的 是 一 张 表示 网 络 内 容 的 有 向 图 ， 其 
中 顶点 表示 网 页 ， 而 边 表示 从 一 个 页 面 指向 男 一 个 
页 面 的 超 链接 。 在 这 样 一 幅 有 向 图 中 ， 强 连通 分 量 
能 够 帮助 网 络 工程 师 将 网 络 中 数量 庞大 的 网 页 分 为 
多 个 大 小 可 以 接受 的 部 分 分 别 进 行 处 理 。 练 习 和 本 
书 的 网 站 会 涉及 这 些 应 用 和 其 他 例子 的 更 多 性 质 。 
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图 4.2.14 ”一 幅 表示 食物 链 的 有 向 图 的 一 


表 4.2.7 强 连通 分 量 的 典型 应 用 


应 ”用 顶 点 
网 络 网 页 
教科 书 话题 
软件 模块 
食物 链 物种 


小 部 分 
边 
超 链接 
引用 
调用 584 
捕食 关系 585 


因此 ， 在 有 向 图 中 我 们 也 需要 表 4.2.8 所 列 的 这 份 和 CC ( 请 见 表 4.1.6 ) 类 似 的 API。 


表 4.2.8 强 连通 分 量 的 API 


public class SCC 
SCC(Digraph ©) 
boolean stronglyConnected(int v, int w) 


int count() 


int idCint v) 


预 处 理 构造 函数 
Vv 和 w 是 强 连通 的 吗 
图 中 的 强 连通 分 量 的 总 数 


v 所 在 的 强 连 通 分 量 的 标识 符 ( 在 0 至 
count()-1 之 间 ) 


设计 一 种 平方 级 别 的 算法 来 计算 强 连通 分 量 ( 请 见 练习 4.2.23 ) 并 不 困难 , 但 ( 和 以 前 一 样 ) 
对 于 处 理 在 实际 应 用 中 经 常 遇 到 的 像 刚 才 示 例 所 示 的 大 型 有 向 图 来 说 ,平方 级 别 的 时 间 和 空间 需求 


是 不 可 接受 的 。 
4.2.5.3 ”Kosaraju 算法 


我 们 在 CC ( 请 见 算法 4.3 ) 中 看 到 过 ， 计 算 无 向 图 中 的 连通 分 量 只 是 深度 优先 搜索 的 一 
个 简单 应 用 。 那 么 在 有 向 图 中 应 该 如 何 高 效 地 计算 强 连通 分 量 呢 ? 令 人 惊讶 的 是 ， 算 法 4.6 中 
的 KosarajuCC 的 实现 只 为 CC 添加 了 几 行 代码 就 做 到 了 这 一 点 ， 它 将 会 完成 以 下 任务 ( 请 见 


图 4.2.15) 。 


口 在 给 定 的 一 幅 有 向 图 G 中 ,使 用 DepthFirstOrder 来 计算 它 的 反 向 图 G* 的 逆 后 序 排列 。 
口 在 G 中 进行 标准 的 深度 优先 搜索 ,但 是 要 按照 刚才 计算 得 到 的 顺序 而 非 标准 的 顺序 来 访问 


所 有 未 被 标记 的 顶点 。 


口 在 构造 函数 中 ,所 有 在 同一 个 递归 dfs () 调用 中 被 访问 到 的 项 点 都 在 同一 个 强 连通 分 量 中 ， 
将 它们 按照 和 CC 相同 的 方式 识别 出 来 。 






在 C 中 进行 深度 优先 搜索 在 G" 中 进行 深度 优先 搜索 
(KosarajuSCC) (DepthFirstOrder) 
- 假设 v 对 于 s 是 可 : 和 
”dfs(s) 达 的 ， 那 么 C 中 ”dfs(s) ee 
: a 深度 优先 搜 。。: 的 小谷 
dfsCv)” 5 到 v 的 路 径 索 必然 在 离 ” dfs(v) ! 
: 开 s 之 前 就 离 - 
a 开 了 vV， 否 则 E 
VY 完成 G 中 dfs(v) 的 \、 ，Y 完成 
调用 就 会 发 
a 生 在 dfs(s) 之 前 A 


人 
不 可 能 ， 因 为 C" 中 含 
有 一 条 从 v 到 s 的 路 径 


586 图 4.2.15 Kosaraju 算法 的 正确 性 证 明 
算法 4.6 计算 强 连通 分 量 的 Kosaraju 算法 
pubTlic class KosarajuSCC 


private boolean[] marked; // 已 访问 过 的 顶点 


Brivate int[] id; // 强 连 通 分 量 的 标识 符 
private int count,; // 强 连 通 分 量 的 数量 


public KosarajuSCCCDigraph 6) 


arked = new boolean[G.VvO]:; 





这 


C new int[lG.YVO 1}; 
DepthFirstOrder order = new DepthFirstOrder(G.reverse()); 
for (int s : Order.reversePost()) 


| 六 < 了 
aprkedLsj]y>) 





% java KosarajuSCC tinyDG.txt 
5 components 








下 

private void dfs{(Digraph G&G, int V] 05432 
{ 11 12 9 10 

marked[v] true: 6 

idfv] = count; 8:7 

for (1int Aad] ( 2 

if Cimarked[w 
dfs{G 


public boolean stronglyCornected(int v, int w) 


pubTlic int idCint v) 


{ return id[fv]; } 


public nt countO) 
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突出 显示 的 代码 是 这 份 实现 和 CC ( 请 见 算法 4.3 ) 仅 有 的 不 同 之 处 ( 还 需要 将 4.1.6.1 节 中 用 到 的 
main() 函数 中 的 Graph 替换 为 Digraph，CC 替换 为 KosarajuSCC ) 。 为 了 找到 所 有 强 连通 分 量 ， 它 会 
在 反 向 图 中 进行 深度 优先 搜索 来 将 顶点 排序 (搜索 顺序 的 逆 后 序 ) ， 在 给 定 有 向 图 中 用 这 个 顺序 再 进行 
一 次 深度 优先 搜索 。 


Ln 
Co 
| 





Kosaraju 算法 是 一 个 典型 示例 ， 这 个 方法 容易 实现 但 难以 理解 。 尽 管 它 有 些 神秘 ,但 如 果 你 能 
一 步 一 步 地 理解 下 面 这 个 命题 的 证 明 并 参考 图 4.2.4， 那 你 一 定 可 以 理解 这 个 算法 的 正确 性 。 


命题 H。 使 用 深度 优先 搜索 查找 给 定 有 向 图 G 的 反 向 图 G ， 根 据 由 此 得 到 的 所 有 顶点 的 逆 后 
序 再 次 用 深度 优先 搜索 处 理 有 向 图 G (Kosaraju 算法 ) ， 其 构造 函数 中 的 每 一 次 递归 调用 所 标 
记 的 顶点 都 在 同一 个 强 连通 分 量 之 中 。 


证 上 明 。 首 先 要 用 反 证 法 证 明 “ 每 个 和 s 强 连 通 的 顶点 V 都 会 在 构造 函数 调用 的 dfs(G,s) 中 
被 访问 到 ”。 假 设 有 一 个 和 s 强 连通 的 顶点 v 不 会 在 构造 函数 调用 的 dfs(G,s) 中 被 访问 到 。 
因为 存在 从 s 到 Yv 的 路 径 ， 所 以 v 肯定 在 之 前 就 已 经 被 标记 过 了 。 但 是 ， 因 为 也 存在 从 v 到 
s 的 路 径 , 在 dfs(G,v) 调用 中 s 肯定 会 被 标记 ， 因 此 构造 函数 应 该 是 不 会 调用 dfs(G,s) 的 。 
矛盾 。 
其 次 ， 要 证 明 “ 构 造 函 数 调用 的 dfs(G,s) 所 到 达 的 任意 顶点 v 都 必然 是 和 s 强 连 通 的 ”。 
设 v 为 dfs(G,s) 到 达 的 某 个 顶点 。 那 么 ，G 中 必然 存在 一 条 从 s 到 v 的 路 径 ， 因 此 只 需要 证 
明 G 中 还 存在 一 条 从 v 到 s 的 路 径 即 可 。 这 也 等 价 于 G* 中 存在 一 条 从 s 到 v 的 路 径 ， 因 此 只 
需要 证 明 在 G' 中 存在 一 条 从 s 到 v 的 路 径 即 可 。 
证 明 的 核心 在 于 ,按照 后 逆序 进行 的 深度 优先 搜索 意味 着 ,在 CG 中 进行 的 深度 优先 搜索 中 ， 
dfs(G,v) 必然 在 dfs(G,s) 之 前 就 已 经 结束 了 ， 这 样 dfs(CG,Vv) 的 调用 就 只 会 出 现 两 种 
情况 : 

口 调用 在 dfs(G,s) 的 调用 之 前 (并 且 也 在 dfs(G,s) 的 调用 之 前 结束 ) ; 

口 调用 在 dfs(G,s) 的 调用 之 后 (并且 也 在 dfs(G,s) 的 结束 之 前 结束 ) 。 
第 一 种 情况 是 不 可 能 出 现 的 ， 因 为 在 G* 中 存在 一 条 从 v 到 s 的 路 径 ; 而 第 二 种 情况 则 说 明 G* 
中 存在 一 条 从 s 到 v 的 路 径 。 证 毕 。 


图 4.2.16 所 示 为 Kosaraju 算法 处 理 tinyDG.txt 时 的 轨迹 。 在 每 次 dfsQ) 调用 轨迹 的 右 侧 都 是 有 
向 图 的 一 部 分 ， 顶 点 按照 搜索 结束 的 顺序 排列 。 因 此 ， 从 下 往 上 来 看 左 侧 这 幅 有 向 图 的 反 向 图 得 到 
的 就 是 所 有 顶点 的 逆 后 序 ， 也 就 是 在 原始 的 有 向 图 中 进行 深度 优先 搜索 时 所 有 未 被 标记 的 顶点 被 检 
查 的 顺序 。 你 可 以 从 图 中 看 到 ， 在 第 二 遍 深 度 优先 搜索 中 ， 首 先 调用 的 是 dfs (1) (标记 顶点 1) ， 
然后 调用 的 是 dfs (0) (标记 顶点 5、4、3 和 2 ) ， 然 后 检查 了 顶点 2、4、5 和 3， 再 调用 dfs (11) 
(标记 顶点 11、12、9 和 10 ) ， 在 检查 了 9、12 和 10 之 后 调用 dfs(b) (标记 顶点 6) ， 最 后 调 
用 dfs(7) 标记 了 顶点 7 和 8。 588 


382 > 第 4 章 图 


在 反 向 图 中 进行 深度 优先 搜索 (ReversePost) 


按 以 下 顺序 检查 所 有 未 被 标记 的 顶点 
0123456789101112 





供 第 二 次 深度 
优先 搜索 使 用 的 
逆 后 序 (从 下 往 上 ) 








在 原始 的 有 向 图 中 进行 深度 优先 搜索 


(STS) 


0 


按 以 下 顺序 检查 所 有 未 被 标记 的 顶点 
1024531191210678 






dfs(1) 


检查 4 
dfs(12) 
dfs(9) 
检查 11 
dfs(10) 
检查 12 


图 4.2.16 在 有 向 图 中 寻找 强 连 通 分 量 的 Kosaraju 算法 
图 4.2.17 中 所 示 的 是 一 个 更 大 的 示例 ， 也 是 Web 的 有 向 图 模型 的 一 个 非常 小 的 部 分 。 





所 有 强 连 
通 分 量 
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4.2.17 这 幅 有 向 图 中 含有 多 少 个 强 连 通 分 量 


我 们 在 第 1 章 已 经 介绍 过 kosaraju 算法 并 在 4.1 节 中 再 次 使 用 该 算法 解决 了 无 向 图 的 连通 性 问 
题 。Kosaraju 算法 也 解决 了 有 向 图 中 的 类 似 问题 。 

强 连通 性 。 给 定 一 幅 有 向 图 ， 回 答 “ 给 定 的 两 个 顶点 是 强 连通 的 吗 ? 这 幅 有 向 图 中 含有 多 少 个 
强 连通 分 量 ?” ”等 类 似 问 题 。 

我 们 能 否 用 和 无 向 图 相同 的 效率 解决 有 向 图 的 连通 性 问题 ? 这 个 问题 已 经 被 研究 了 很 长 时 间 了 
(RE.Tarjan 在 20 世纪 70 年 代 末 解决 了 这 个 问题 ) 。 这 样 一 个 简单 的 解决 方法 实在 令 人 惊讶 。 


命题 |。Kosaraju 算法 的 预 处 理 所 需 的 时 间 和 空间 与 VtE 成 正比 且 支 持 常数 时 间 的 有 向 图 强 连 
通 性 的 查询 。 


证 明 。 该 算法 会 处 理 有 向 图 的 反 向 图 并 进行 两 次 深度 优先 搜索 。 这 3 步 所 需 的 时 间 都 与 VE 成 
正比 。 反 向 复制 一 幅 有 向 图 所 需 的 空间 与 VtE 成 正比 。 


384 和 第 4 章 图 


4.2.5.4 ”再 谈 可 达 性 





根据 CC 类 我 们 可 以 知道 ， 在 无 向 图 中 如 (0) ee 
果 两 个 顶点 v 和 w 是 连通 的 ， 那 么 就 既 存 在 一 oe 
条 从 v 到 w 的 路 径 也 存在 一 条 从 w 到 v 的 路 径 。 
根据 kosarajucc 类 可 知 ， 在 有 向 图 中 如 果 丙 入 | Dg 
个 顶点 v 和 w 是 强 连 通 的 ， 那么 也 既 存 在 一 条 G) NG 
从 v 到 w 的 路 径 也 存在 ( 另 ) 一 条 从 w 到 v 的 
路 径 。 但 对 于 一 对 非 强 连 通 的 顶点 呢 ? 也 许 存 "本 本 本 :机 
在 一 条 从 v 到 w 的 路 径 ， 也 许 存在 一 条 从 w 到 “0 
v 的 路 径 ， 也 许 两 条 都 不 存在 ， 但 两 条 不 可 能 o En 
都 存在 。 3 |T T T 1 TT 委 中 的 边 (红色 ) 顶 点 12 是 从 
项 点 对 的 可 达 性 。 给 定 一 幅 有 向 图 , 回答 。 4 |T T T T T _ 自 环 (灰色 ) 顶 &S6J 达 的 
“是 否 存 在 一 条 从 一 个 给 定 的 顶点 v 到 男 一 个 slTTTTT 所 | 
给 定 的 顶点 Ww 的 路 径 ? ”等 类 似 问 题 。 rl ~ ET 
区 eR Rk i 
对 于 无 向 图 , 这 个 问题 等 价 于 连通 性 问题 | TTTTTTT TTII 
对 于 有 向 图 , 它 和 强 连通 性 的 问题 有 很 大 区 别 。 | 下 二 二 予 赴 重 要 学 ” 莹 
cc 实现 需要 线性 级 别 的 预 处 理 时 间 才 能 支持 llrTTTTIT i 
常数 时 间 的 查询 操作 。 我 们 能 够 在 有 向 图 的 相 i ] es 
应 实现 中 达到 这 样 的 性 能 吗 ?这 个 看 似 简单 的 
问题 困扰 了 专家 数 十 年 。 为 了 更 好 地 理解 这 个 图 4.2.18 传递 闭 包 〈 另 见 彩 插 ) 
问题 ， 我 们 来 看 看 图 4.2.18。 它 展示 了 下 面 这 
个 基本 的 概念 。 


定义 。 有 向 图 G 的 传递 闭 包 是 由 相同 的 一 组 顶点 组 成 的 另 一 幅 有 向 图 ， 在 传递 闭 包 中 存在 一 条 
从 v 指向 Ww 的 边 当 上 且 仅 当 在 G 中 w 是 从 Vv 可 达 的 。 


根据 约定 ,每 个 顶点 对 于 自己 都 是 可 达 的 , 因此 传递 闭 包 会 含有 VV 个 自 环 。 样 图 只 有 13 条 边 ， 
但 它 的 传递 闭 包含 有 可 能 的 169 条 边 中 的 102 条 。 一 般 来 说 ,一 幅 有 向 图 的 传递 闭 包 中 所 含 的 边 都 
比 原 图 中 多 得 多 ， 一 幅 稀 朴 图 的 传递 闭 包 却 是 一 幅 稠密 图 也 是 很 常见 的 。 例 如 ， 含 有 三 个 顶点 和 顾 
条 边 的 有 向 环 的 传递 闭 包 是 一 幅 含 有 广 条 边 的 有 向 完全 图 。 因 为 传递 闭 包 一 般 都 很 稠密 ， 我 们 通 
常 都 将 它们 表示 为 一 个 布尔 值 矩 阵 ， 其 中 v 行 w 列 的 值 为 true 当 且 仅 当 w 是 从 v 可 达 的 。 与 其 明 
确 计 算 一 幅 有 向 图 的 传递 闭 包 ， 不 如 使 用 深度 优先 搜索 来 实现 表 4.2.9 中 的 API。 


表 4.2.9 顶点 对 可 达 性 的 API 


public class TransitiveClosure 


TransitiveClosure(Digraph G) 预 处 理 的 构造 浮 数 
boolean reachable(int v, int w) w 是 从 v 可 达 的 吗 


下 页 框 注 中 的 代码 使 用 DirectedDFS ( 请 见 算法 4.4) 简单 明了 地 实现 了 它 。 无 论 对 于 稀 下 C 
还 是 稠密 的 图 ， 它 都 是 理想 解决 方案 ， 但 它 不 适用 于 在 实际 应 用 中 可 能 遇 到 的 大 型 有 向 图 ， 因 为 
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构造 函数 所 需 的 空间 和 天 成 正比 ， 


public class TransitiveClosure 


{ 所 需 的 时 间 和 KV+tE) 成 正比 : 共 
private DirectedDFS[] all; 有 下 个 DirectedDFS 对 象 ， 每 个 所 
TransitiveClosure(Digraph (©) 

] 需 的 空间 都 与 成 正比 ( 它们 都 仿 
all = new DirectedDFS[G.VO]; 有 大 小 为 天 的 marked[] 数组 并 会 检 
for (Cint v = 0; Vv < G.VO; Vv++) 本 _ 、 _ 

all[v] = new DirectedDFS(G, Vv); 查 E 条 边 来 计算 标记 ) 。 本 质 上 ， 

} TransitiveClosure 通过 计算 G 的 传 

boolean reachable(int v, int w) 递 闭 包 来 支持 常数 时 间 的 查询 一 一 传 

站 .markedCw) ; 8 ES 2 

Ee A 递 闭 包 和 矩阵 中 的 第 y 行 就 是 Transi- 

1 tiveClosure 类 中 的 DirectedDFS[] 

顶点 对 的 可 达 性 数组 的 第 v 个 元 素 的 marked[] 数组 。 


我 们 能 够 大 幅度 减少 预 处 理 所 需 的 时 
间 和 空间 同时 又 保证 常数 时 间 的 查询 吗 ” 用 远 小 于 平方 级 别 的 空间 支持 常数 级 别 的 查询 的 一 般 解 决 
方案 仍然 是 一 个 有 待 解决 的 研究 问题 ,并且 有 重要 的 实际 意义 : 例如 ， 除 非 这 个 问题 得 到 解决 ， 对 
于 像 代 表 互 联网 这 样 的 巨型 有 向 图 ， 否 则 无 法 有 效 解决 其 中 的 顶点 对 可 达 性 问题 。 


4.2.6 总 结 

在 本 节 中 ， 我 们 介绍 了 有 向 边 和 有 向 图 并 强调 了 有 向 图 处 理 算法 和 无 向 图 处 理 中 相应 算法 的 关 
系 ， 涵 盖 了 以 下 几 个 方面 : 

口 有 向 图 的 术语 ; 

口 有 向 图 的 表示 和 算法 在 本 质 上 和 无 向 图 是 相同 的 ， 但 部 分 有 向 图 问题 更 加 复杂 ; 

口 有 向 环 、 有 向 无 环 图 、 拓 扑 排序 和 优先 级 限制 下 的 调度 问题 ; 

口 有 向 网 的 可 达 性 、 路 径 和 强 连 通 性 。 

表 4.2.10 总 结 了 我 们 已 经 学 过 的 各 种 有 向 图 算法 的 实现 ( 只 有 一 个 算法 不 基于 深度 优先 搜索 )。 
这 些 问题 的 描述 都 很 简单 ， 但 它们 的 解决 方法 有 的 仅仅 简单 改造 了 无 环 图 中 的 相应 问题 的 处 理 算 
法 ， 有 的 却 非常 巧妙 。 我 们 将 在 4.4 节 中 遇 到 加 权 有 向 图 ， 这 些 算法 将 是 学 习 更 加 复杂 的 算法 的 
基础 。 


表 4.2.10 本 节 中 得 到 解决 的 有 向 图 处 理 问题 


问 题 解决 方法 参 阅 
单 点 和 多 点 的 可 达 性 DirectedDFS 算法 4.4 
单 点 有 向 路 径 DepthFirstDirectedPaths 4.2.3.2 
单 点 最 短 有 向 路 径 BreadthFirstDirectedPaths 4.2.3.2 
有 向 环 检测 DirectedCycle 4.2.4.2 框 注 “查找 有 向 环 ” 
深度 优先 的 顶点 排序 DepthEinstorder es “有 向 图 中 基于 深度 优先 搜索 
优先 级 限制 下 的 调度 问题 Topological 算法 4.5 
拓扑 排序 Topological 算法 4.5 
强 连通 性 KosarajuSCC 算法 4.6 


顶点 对 的 可 达 性 TransitiveClosure 4.2.5.4 节 





un 


问 自 环 是 一 个 环 吗 ? 
答 ”是 的 , 但 没有 自 环 的 项 点 对 于 自己 也 是 可 达 的 。 


图 练习 

4.2.1 一 幅 含 有 天 个 顶点 且 没 有 平行 边 的 有 向 图 中 最 多 可 能 含有 多 少 条 边 ? 一 幅 含 有 灰 个 顶点 且 没 有 和 孤 
立 顶 点 的 有 向 图 中 最 少 需 要 多 少 条 边 ? 

4.2.2 按照 正文 中 示意 图 的 样式 〈 请 见 图 4.1.10 ) 画 出 Digraph Ge 
的 构造 函数 在 处 理 图 4.2.19 的 tinyDGex2.txt 时 构造 的 邻 eh 
接 表 。 84 (Oo (6) 

4.2.3 为 Digraph 添加 一 个 构造 函数 ， 它 接受 一 幅 有 向 图 G 然 后 本 a 
创建 并 初始 化 这 幅 图 的 一 个 副本 。G 的 用 例 的 对 它 作 出 的 > . 个 
任何 改动 都 不 应 该 影响 到 它 的 副本 。 10 3 Go 

4.2.4 为 Digraph 添加 一 个 方法 hasEdge()， 它 接受 两 个 整 型 参 2 
数 v 和 w。 如 果 图 含有 边 v 一 w， 方 法 返回 true， 否 则 返 i 
回 false。 6 2 DD 四 

4.2.5 修改 Digraph， 不 允许 存在 平行 边 和 自 环 。 人 

4.2.6 为 Digraph 编写 一 个 测试 用 例 。 (9) 

4.2.7 顶点 的 入 度 为 指向 该 顶点 的 边 的 总 数 。 顶 点 的 出 度 为 由 该 竺 沁 


顶点 指出 的 边 的 总 数 。 从 出 度 为 0 的 顶点 是 不 可 能 达到 任 图 4.2.19 
何 顶 点 的 ， 这 种 顶点 叫做 终点 ; 人 度 为 0 的 顶点 是 不 可 能 

从 任何 顶点 到 达 的 ， 所 以 叫做 起 点 。 一 幅 允 许 出 现 自 环 且 每 个 顶点 的 出 度 均 为 1 的 有 向 图 叫做 映 
射 ( 从 0 到 地 1 之 间 的 整数 到 它们 自身 的 函数 ) 。 编 写 一 段 程 序 Degrees.java， 实 现下 面 的 APL， 
如 表 4.2.11 所 示 。 








表 4.2.11 
public class Degrees 
Degrees (Digraph 0G) 构造 函数 
int indegree(int v) v 的 入 度 
int outdegree(int v) v 的 出 度 
Iterable<Integer> sources() 所 有 起 点 的 集合 
Iterable<Integer> sinks() 所 有 终点 的 集合 
boolean isMap() G 是 一 幅 映 射 吗 
4.2.8 画 出 所 有 含有 2、3、4 和 5 个 顶点 的 非 同 构 有 向 无 环 图 。 ( 参考 练习 4.1.28 ) 
4.2.9 ”编写 一 个 方法 ， 检 查 一 幅 有 向 无 环 图 的 顶点 的 给 定 排列 是 否 就 是 该 图 项 点 的 拓扑 排序 。 
4.2.10 给 定 一 幅 有 向 无 环 图 ， i 种 无 法 用 基于 深度 优先 搜索 算法 得 到 的 项 点 的 拓扑 排序 ? 顶 


点 的 相 邻 关系 不 限 。 证 明 你 的 结论 。 


4.2.11 
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4.2.12 一 幅 含 有 VV 个 顶点 和 人 1 条 边 目 为 一 条 简单 路 径 的 有 向 图 的 传递 闭 包 中 含有 多 少 条 边 ? 


4.2.13 


4.2.14 
4.2.15 
4.2.16 
4.2.17 


给 出 这 幅 含 有 10 个 顶点 和 以 下 边 的 有 向 图 的 传递 闭 包 : 

3 一 7 工 一 4 7 一 8 0 一 5 5 一 2 3 一 8 2 一 9 0 一 6 4 一 9 2 一 6 6 一 4 

证 明 G 和 G" 中 的 强 连通 分 量 是 相同 的 。 

一 幅 有 向 无 环 图 的 强 连 通 分 量 是 哪些 ? 

用 Kosaraju 算法 处 理 一 幅 有 向 无 环 图 的 结果 是 什么 ? 

真 假 判 断 : 一 幅 有 向 图 的 反 向 图 的 顶点 的 后 逆序 排列 和 该 有 向 图 的 顶点 的 后 序 排列 相同 。 





4.2.18 使 用 1.4 节 中 的 内 存 使 用 模型 评估 含有 VV 个 顶点 和 EE 条 边 的 Digraph 的 内 存 使 用 情况 。 


图 提高 十 


4.2.19 


4.2.20 


4.2.21 


4.2.22 


4.2.23 


4.2.24 


4.2.25 


4.2.26 


拓扑 排序 与 广度 优先 搜索 。 解 释 为 何如 下 算法 无 法 得 到 一 组 拓扑 排序 : 运行 广度 优先 搜索 并 按 
照 所 有 顶点 和 起 点 的 距离 标记 它们 。 

有 向 欧 拉 环 。 欧 拉 环 是 一 条 每 条 边 只 出 现 一 次 的 有 向 环 。 编 写 一 个 程序 Euler 来 找 出 有 向 图 中 
的 欧 拉 环 或 者 说 明 它 不 存在 。 提 示 : 当 且 仅 当 有 向 图 G 是 连通 的 且 每 个 顶点 的 出 度 和 入 度 相 同 
时 G 含有 一 条 有 向 欧 拉 环 。 

有 向 无 环 图 中 的 LCA。 给 定 一 幅 有 向 无 环 图 和 两 个 顶点 v 和 w， 找 出 v 和 w 的 LCA (Lowest 
Common Ancestor， 最 近 共 同 祖先 ) 。 LCA 的 计算 在 实现 编程 语言 的 多 重 继承 、 分 析 家 谱 数据 ( 找 
出 家 族 中 近亲 繁衍 的 程度 ) 和 其 他 一 些 应 用 中 很 有 用 。 提 示 : 将 有 向 无 环 图 中 的 顶点 v 的 高 度 
定义 为 从 根 结 点 到 v 的 最 长 路 径 。 在 所 有 v 和 w 的 共同 祖先 中 ， 高 度 最 大 者 就 是 v 和 w 的 最 近 
共同 祖先 。 

最 短 先 导 路 径 。 给 定 一 幅 有 向 无 环 图 和 两 个 顶点 v 和 w， 找 出 v 和 w 之 间 的 最 短 先导 路 径 。 设 v 
和 w 的 一 个 共同 的 祖先 顶点 为 x， 先 导 路 径 为 v 到 x 的 最 短路 径 和 w 到 x 的 最 短路 径 。v 和 w 之 
间 的 最 短 先 导 路 径 是 所 有 先导 路 径 中 的 最 短 者 。 热 身 : 构造 一 幅 有 向 无 环 图 ， 使 得 最 短 先导 路 
径 到 达 的 祖先 顶点 x 不 是 v 和 w 的 最 近 共 同 祖先 。 提 示 : 进行 两 次 广度 优先 搜索 , 一 次 从 v 开始 ， 
一 次 从 w 开 始 。 

强 连通 分 量 。 设 计 一 种 线性 时 间 的 算法 来 计算 给 定 顶 点 v 所 在 的 强 连 通 分 量 。 在 这 个 算法 的 基 
础 上 设计 一 种 平方 时 间 的 算法 来 计算 有 向 图 的 所 有 强 连通 分 量 。 

有 向 无 环 图 中 的 汉密尔顿 路 径 。 设 计 一 种 线性 时 间 的 算法 来 判定 给 定 的 有 向 无 环 图 中 是 否 存在 
一 条 能 够 正好 只 访问 每 个 顶点 一 次 的 有 向 路 径 。 

答案 : 计算 给 定 图 的 拓扑 排序 并 顺序 检查 拓扑 排序 中 每 一 对 相 邻 的 顶点 之 间 是 否 存 在 一 条 边 。 
唯一 的 拓扑 排序 。 设 计 一 个 算法 来 判定 一 幅 有 向 图 的 拓扑 排序 是 否 是 唯一 的 。 提 示 : 当 且 仅 当 
拓扑 排序 中 每 一 对 相 邻 的 顶点 之 间 都 存在 一 条 有 向 边 ( 即 有 向 图 含有 一 条 汉密尔顿 路 径 ) 时 它 
的 拓扑 排序 才 是 唯一 的 。 如 果 一 幅 有 向 图 的 拓扑 排序 不 唯一 ， 另 一 种 拓扑 排序 可 以 由 交换 拓扑 
排序 中 的 某 一 对 相 邻 的 顶点 得 到 。 

2- 可 满足 性 。 给 定 一 个 由 M 个 子 句 和 个 变量 的 组 成 的 以 合 取 范 式 形 式 给 出 的 布尔 逻辑 命题 ， 
每 个 子 句 都 正好 含有 两 个 变量 ， 找 到 一 组 使 布尔 表达 式 为 真 的 变量 赋值 ( 如 果 存 在 ) 。 提 示 : 


对 于 每 个 子 句 x+ty， 添 加 一 条 从 y' 到 x 的 边 和 一 条 从 x' 到 y 的 边 。 要 满足 子 句 x+ty， 必 有 (i) 
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4.2.27 


4.2.28 
4.2.29 


4.2.30 


4.2.31 


如 果 y 是 假 那 么 x 为 真 ， 或 者 (ii) 如 果 x 是 假 那 么 y 为 真 。 说 明 : 当 且 仅 当 没有 任何 项 点 x 和 
它 的 反 x' 存 在 于 同一 个 强 连通 分 量 中 时 这 个 表达 式 才能 被 满足 。 另 外 ， 核 心 有 向 无 环 图 ( 将 每 
个 强 连通 分 量 看 作 一 个 顶点 ) 的 拓扑 排序 也 能 够 产生 一 组 可 以 满足 该 表达 式 的 变量 赋值 。 

有 向 图 的 枚 举 。 证 明 所 有 不 同 的 含有 了 个 顶点 且 不 含 平行 边 的 有 向 图 的 总 数 为 2” 个 。 (含有 VV 
个 顶点 和 EE 条 边 的 不 同 有 向 图 有 和 多少 个 ? ) 假 设 宇宙 中 每 个 电子 在 一 纳 秒 内 能 够 检查 一 幅 有 向 图 ， 
宇宙 中 的 电子 总 数 不 超 过 10” 个 ， 宇 宙 的 寿命 小 于 10” 年 。 对 于 所 有 含有 20 个 顶点 的 不 同 有 向 
图 ， 计 算 机 最 多 能 够 检查 它们 的 百 分 之 几 ? 

有 向 无 环 图 的 枚 举 。 给 出 一 个 公式 ， 计算 含有 个 顶点 和 条 边 的 所 有 有 向 无 环 图 的 数量 。 
算术 表达 式 。 编 写 一 个 类 来 计算 由 有 向 无 环 图 表示 的 算术 表达 式 。 使 用 一 个 由 顶点 索引 的 数组 
来 保存 每 个 顶点 所 对 应 的 值 。 假 设 叶 子 结 点 中 的 值 是 常数 。 描 述 一 组 算术 表达 式 ， 使 得 它 所 对 
应 的 表达 式 树 ( expression tree ) 的 大 小 是 相应 的 有 向 无 环 图 的 大 小 的 指数 级 别 。 ( 因此 程序 处 
理 有 向 无 环 图 所 需 的 时 间 将 和 处 理 表达 式 树 所 需 的 时 间 的 对 数 成 正比 。 ) 

基于 队列 的 拓扑 排序 。 实 现 一 种 拓扑 排序 ， 使 用 由 项 点 索引 的 数组 来 保存 每 个 顶点 的 入 度 。 遍 历 
一 遍 所 有 边 并 使 用 练习 4.2.7 给 出 的 Degrees 类 来 初始 化 数组 以 及 一 条 含有 所 有 顶点 的 队列 。 然 
后 ， 重 复 以 下 操作 直到 起 点 队列 为 空 : 


口 遍历 由 被 删除 顶点 指出 的 所 有 边 ， 将 所 有 被 指向 的 顶点 的 入 度 减 一 ; 

口 如 果 顶 点 的 入 度 变 为 0， 将 它 插入 顶点 队列 。 

有 向 欧 拉 图 。 修改 你 为 4.1.37 给 出 的 解答 ， 为 平面 图 设计 一 份 API 名 为 EulideanDigraph， 这 
样 你 就 能 够 处 理 用 图 形 表示 的 图 了 。 


图 实验 是 


4.2.32 


4.2.33 


4.2.34 


4.2.35 


4.2.36 


4.2.37 


4.2.38 


随机 有 向 图 ,编写 一 个 程序 ErdosRenyiDigraph, 从 命令 行 接受 整数 VV 和 E, 随 机 生成 E 对 0 到 矿 1 

之 间 的 整数 来 构造 一 幅 有 向 图 。 注 意 : 生成 器 可 能 会 产生 自 环 和 平行 边 。 

随机 简单 有 向 图 。 编 写 一 个 程序 RandomSimpleDigraph， 从 命令 行 接受 整数 广 各 ， 用 均等 的 

几率 生成 含有 个 顶点 和 无 条 边 的 所 有 可 能 的 简单 有 向 图 。 

随机 稀疏 有 向 图 。 将 你 为 练习 4.1.41 给 出 的 解答 修改 为 RandomSparseDigraph， 根 据 精 心 选择 

的 一 组 V 和 的 值 生成 随机 的 稀 玖 有 向 图 ， 使 得 我 们 可 以 用 它 进行 有 意义 的 经 验 性 测试 。 

随机 欧 拉 图 。 将 你 为 练习 41.42 给 出 的 解答 修改 为 EulideanDigraph 的 用 例 RandomEulideanDigraph， 

随机 指定 每 条 边 的 方向 。 

随机 网 格 图 。 将 你 为 练习 4.1.43 给 出 的 解答 修改 为 EulideanDigraph 的 用 例 RandomGridDigraph， 

随机 指定 每 条 边 的 方向 。 

真实 世界 中 的 有 向 图 。 从 互联 网 上 找 出 一 幅 巨 型 有 向 图 一 一 可 以 是 某 个 在 线 商 业 系 统 的 交易 图 ， 

或 是 由 网 页 和 链接 得 到 的 有 向 图 。 编 写 一 段 程序 RandomRea1Digraph， 从 这 些 顶 点 构成 的 子 图 

中 随机 选取 VV 个 顶点 ,然后 再 从 这 些 顶 点 构成 的 子 图 中 随机 选取 EE 条 边 来 构造 一 幅 图 。 

真实 世界 中 的 有 向 无 环 图 。 从 互联 网 上 找 出 一 幅 巨 型 有 向 无 环 图 一 一 可 以 是 大 型 软件 系统 中 的 

类 依赖 关系 ， 或 是 大 型 文件 系统 中 的 目录 结构 。 编 写 一 段 程序 RandomRea1DAG， 从 这 些 顶 点 构 

成 的 子 图 中 随机 选取 V 个 顶点 , 然后 青 从 这 些 顶 点 构成 的 子 图 中 随机 选取 EE 条 边 来 构造 一 幅 图 。 
测试 所 有 的 算法 并 研究 所 有 图 模型 的 所 有 参数 是 不 现实 的 。 请 为 下 面 的 每 一 道 题 都 编写 一 
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段 程序 来 处 理 从 输入 得 到 的 任意 图 。 这 段 程序 可 以 调用 上 面 的 任意 生成 器 并 对 相应 的 图 模 
型 进行 实验 。 你 可 以 根据 上 次 实验 的 结果 自己 作出 判断 来 选择 不 同 实验 。 陈 述 结 果 以 及 由 
此 得 出 的 任何 结论 。 
4.2.39 可 达 性 。 对 于 各 种 有 向 图 的 模型 ， 运 行 实验 并 根据 经 验 判 断 从 一 个 随机 选 定 的 顶点 可 以 到 达 的 
顶点 数量 的 平均 值 。 
4.2.40 深度 优先 搜索 中 的 路 径 长 度 。 对 于 各 种 有 向 图 的 模型 ， 运 行 实验 并 根据 经 验 判 断 Depth- 
FirstDirectedPaths 在 两 个 随机 选 定 的 顶点 之 间 找 到 一 条 路 径 的 概率 并 计算 找到 的 路 径 的 平均 
长 度 。 
4.2.41 广度 优先 搜索 中 的 路 径 长 度 。 对 于 各 种 有 向 图 的 模型 ， 运 行 实验 并 根据 经 验 判 断 Breadth- 
FirstDirectedPaths 在 两 个 随机 选 定 的 顶点 之 间 找 到 一 条 路 径 的 概率 并 计算 找到 的 路 径 的 平均 
长 度 。 
4.2.42 强 连 通 分 量 。 运 行 实验 随机 生成 大 量 有 向 图 并 画 出 柱状 图 ， 根 据 经 验 判断 各 种 类 型 的 随机 有 向 
图 中 强 连通 分 量 的 数量 的 分 布 情况 。 602 
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4.3 最 小 生成 树 


加 权 图 是 一 种 为 每 条 边关 联 一 个 权 值 或 是 成 本 的 图 模型 。 这 种 图 能 够 自然 地 表示 许多 应 用 。 在 
一 幅 航 空 图 中 ， 边 表示 航线 ， 权 值 则 可 以 表示 距离 或 是 费用 。 在 一 幅 电 路 图 中 ， 边 表示 导线 ， 权 值 


nN 则 可 能 表示 导线 的 长 度 即 成 本 ， 或 是 信号 通过 这 条 线 
i 路 所 需 的 时 间 。 在 这 些 情形 中 ， 最 令 人 感 兴趣 的 自然 

45 0.35 最 小 生成 树 是 将 成 本 最 小 化 。 在 本 节 中 ， 我们 将 学 习 加 权 无 向 图 

ee 模型 并 用 算法 回答 下 面 这 个 问题 。 

0 7 0.16 je 最 小 生成 树 。 给 定 一 幅 加 权 无 向 图 ， 找 到 它 的 一 

8 人 9 0 A 棵 最 小 生成 树 。 

1 六 区.19 

0 2 O26 (4) @ 定义 。 图 的 生成 树 是 它 的 一 棵 含有 其 所 有 顶点 的 

无 环 连 通 子 图 。 一 幅 加 权 无 向 图 的 最 小 生成 树 
62 0.40 非 最 小 生成 (MST ) 是 它 的 一 棵 权 值 ( 树 中 所 有 边 的 权 值 之 和 ) 


i Mn (灰色 ) 最 小 的 生成 树 。 (请 见 图 431) 


在 本 节 中 ,我们 会 学 习 计 算 最 小 生成 树 的 两 种 经 
典 算 法 : Prim 算法 和 Kruskal 算法 。 这 些 算法 理解 容易 ， 
实现 简单 。 它 们 是 本 书 中 最 古老 和 最 知名 的 算法 之 一 ， 但 它们 也 根据 现代 数据 结构 得 到 了 改进 。 因 
为 最 小 生成 树 的 重要 应 用 领域 太 多 ， 对 解决 这 个 问题 的 算法 的 研究 至 少 从 20 世纪 20 年 代 在 设计 电 
力 分 配 网 络 时 就 开始 了 。 现在 , 最 小 生成 树 算法 在 设计 各 种 类 型 的 网 络 ( 通信 、 电 子 、 水 利 、 计 算 机 、 
公路 、 铁 路 、 航 空 等 ) 以 及 自然 界 中 的 生物 、 化 学 和 物理 网 络 等 各 个 领域 的 研究 中 都 起 到 了 重要 的 
作用 ， 请 见 表 4.3.1。 


图 4.3.1 一 幅 加 权 无 向 图 和 它 的 最 小 生成 树 


表 4.3.1 最 小 生成 树 的 典型 应 用 


应 用 领域 项 点 边 

电路 元 器 件 导线 
航空 机 场 航线 
电力 分 配 电站 输电 线 
图 像 分 析 面部 容貌 相似 关系 


一 些 约定 
在 计算 最 小 生成 树 的 过 程 中 可 能 会 出 现 各 种 特殊 情况 。 虽 然 它们 大 多 数 都 很 容易 处 理 ， 但 为 了 
行文 的 流畅 ， 我 们 约定 如 下 。 
口 只 考虑 连通 图 。 我 们 对 生成 树 的 定义 意味 着 最 小 生成 树 只 可 能 存在 于 连通 图 中 ， 请 见 图 
4.3.2a。 从 另 一 个 角度 来 说 ， 请 回想 4.1 节 所 述 的 树 的 基本 性 质 ， 我 们 要 找 的 就 是 一 个 由 大 1 
条 边 组 成 的 集合 , 它们 既 连 通 了 图 中 的 所 有 顶点 而 权 值 之 和 又 最 小 。 如 果 一 幅 图 是 非 连通 的 ， 
我 们 只 能 使 用 这 个 算法 来 计算 它 的 所 有 连通 分 量 的 最 小 生成 树 ， 合 并 在 一 起 称 其 为 最 小 生成 
森林 ( 请 见 练习 4.3.22 ) 。 
口 边 的 权重 不 一 定 表示 距离 。 有 时 你 对 几何 学 的 直觉 能 够 帮助 你 理解 算法 ， 因 此 在 示例 中 ,项 
点 都 表示 是 平面 上 的 点 , 而 权重 都 表示 是 两 点 之 间 的 距离 ， 比 如 图 4.3.2b。 但 需要 注意 的 是 ， 
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权重 也 可 能 表示 时 间 、 费 用 或 是 其 他 完全 不 同 的 。。 G) 提 和 通 的 无 向 图 中 不 存在 最 小 生成 
变量 ， 而 且 也 完全 不 一 定 会 和 距离 成 正比 。 
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口 边 的 权重 可 能 是 0 或 者 负数 。 如 果 边 的 权重 都 是 (5) x 9 15 0.11 
正 的 ， 将 最 小 生成 树 定义 为 连接 所 有 顶点 且 总 权 和 过 省 页 
重 最 小 的 子 图 就 足够 了 ， 这 样 的 一 幅 子 图 必然 是 | 人 

站 O22 


一 棵 生成 树 。 定 义 中 的 生成 树 条 件 说 明 图 也 可 以 ,A 
含有 权重 为 0 或 是 负数 的 边 ， 请 见 图 4.3.2c。 量 的 最 小 生成 树 

所 有 边 的 权重 都 各 不 相同 。 如 果 不 同 边 的 权重 可 

以 相同 ， 最 小 生成 树 就 不 一 定 唯一 了 ( 请 见 练习 ” “权重 不 一 定 和 距离 成 正比 

4.3.2 ) 。 存 在 多 棵 最 小 生成 树 的 可 能 性 会 使 部 分 46 0.62 


算法 的 证 明 变 得 更 加 复杂 ， 因 此 我 们 在 表示 中 排 四 (=G) 15 0.02 
除了 这 种 可 能 性 。 事 实 上 这 个 假设 并 没有 限制 算 (DY) 
法 的 适用 范围 ， 因 为 不 做 修改 它们 也 能 处 理 存在 本 @ 


等 值 权 重 的 情况 ， 请 见 图 4.3.2d 。 
总 之 ,在 学 习 最 小 生成 树 相关 算法 的 过 程 中 我 们 假设 
任务 的 目标 是 在 一 幅 加 权 (但 权 值 各 不 相同 的 ) 连通 无 向 (e) 权重 可 能 是 0 或 者 负数 


图 中 找到 它 的 最 小 生成 树 。 
@) (1 (3) 1 5 ‘0.02 

4.3.1 原理 . GO 1 
首先 ,我们 回顾 一 下 4.1 节 中 给 出 的 树 的 两 个 最 重要 @ ee 

1 3 097 


的 性 质 ， 男 见 图 4.3.3: 


口 


口 用 一 条 边 连接 树 中 的 任意 两 个 项 点 都 会 产生 一 个 (yooppooica 
新 的 环 ; 那 最 小 生成 树 可 能 不 唯一 

口 从 树 中 删 去 一 条 边 将 会 得 到 两 棵 独立 的 树 。 ay 一同 1 3 i 

这 两 条 性 质 是 证 明 最 小 生成 树 的 另 一 条 基本 性 质 的 2 4 1.00 
基础 ， 而 由 这 条 基本 性 质 就 能 够 得 到 本 节 中 的 最 小 生成 树 a0 3 4 0.50 
算法 。 (2) 12 1.00 
4.3.1.1 切 分 定理 E 13 0.50 

我 们 称 之 为 切 分 定理 的 这 条 性 质 将 会 把 加 权 图 中 的 Bt 3 4 0.50 
所 有 顶点 分 为 两 个 集合 、 检 查 横 跨 两 个 集合 的 所 有 边 并 识 图 43 2 计算 最 小 生成 树 时 可 能 沁 到 
别 哪 条 边 应 属于 图 的 最 小 生成 树 。 的 各 种 特殊 情况 


定义 。 图 的 一 种 切 分 是 将 图 的 所 有 顶点 分 为 两 个 非 空 目 不 重复 的 两 个 集合 。 横 切 边 是 一 条 连接 
两 个 属于 不 同 集合 的 顶点 的 边 。 


通常 ,我 们 通过 指定 一 个 顶点 集 并 隐 式 地 认为 它 的 补 集 为 另 一 个 顶点 集 来 指定 一 个 切 分 。 这 样 ， 
一 条 横 切 边 就 是 连接 该 集合 的 一 个 顶点 和 不 在 该 集合 中 的 另 一 个 顶点 的 一 条 边 。 如 图 4.3.4 所 示 ， 
我 们 将 切 分 中 一 个 集合 的 顶点 都 画 为 了 灰色 ， 另 一 个 集合 的 顶点 则 为 白色 。 
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添 中 一 条 边 会 


2 


将 灰色 和 白色 顶点 区 别 
开 来 的 横 切 边 为 红色 








删除 一 条 边 会 权重 最 小 的 横 切 边 肯 
将 树 一 分 为 二 定 属于 最 小 生成 树 


图 4.3.3 树 的 基本 性 质 图 4.3.4” 切 分 定理 ( 另 见 彩 插 ) ” 图 4.3.5 产生 了 两 条 属于 最 小 生成 
树 的 横 切 边 的 一 种 切 分 


命题 J( 切 分 定理 ) 。 在 一 幅 加 权 图 中 ， 给 定 任意 的 切 分 ， 它 的 模 切 边 中 的 权重 最 小 者 必然 属 
于 图 的 最 小 生成 树 。 


证 明 。 另 e 为 权重 最 小 的 横 切 边 ，7 为 图 的 最 小 生成 树 。 我 们 采用 反 证 法 ; 假设 7 不 包含 e。 那 
么 如 果 将 e 加 入 7T， 得 到 的 图 必然 含有 一 条 经 过 e 的 环 ， 且 这 个 环 至 少 含有 另 一 条 横 切 边 
设 为 f, f 的 权重 必然 大 和 于 e (因为 e 的 权重 是 最 小 的 且 图 中 所 有 边 的 权重 均 不 同 ) 。 那 么 我 们 
删 掉 了 而 保留 e 就 可 以 得 到 一 棵 权重 更 小 的 生成 树 。 这 和 我 们 的 假设 了 了 矛盾。 





在 假设 所 有 的 边 的 权重 均 不 相同 的 前 提 下 ， 每 幅 连 通 图 都 只 有 一 棵 唯一 的 最 小 生成 树 ( 请 见 
练习 4.3.3 ) ， 切 分 定理 也 表明 了 对 于 每 一 种 切 分 ， 权 重 最 小 的 横 切 边 必然 属于 最 小 生成 树 。 

图 4.3.4 是 切 分 定理 的 示意 图 。 注意， 权重 最 小 的 横 切 边 并 不 一 定 是 所 有 横 切 边 中 唯一 属于 图 
的 最 小 生成 树 的 边 。 实 际 上 ,许多 切 分 都 会 产生 若干 条 属于 最 小 生成 树 的 横 切 边 ， 如 图 4.3.5 所 示 。 
4.3.1.2 ”贪心 算法 

切 分 定理 是 解决 最 小 生成 树 问题 的 所 有 算法 的 基础 。 更 确切 的 说 ， 这 些 算法 都 是 一 种 贪心 算法 
的 特殊 情况 : 使 用 切 分 定理 找到 最 小 生成 树 的 一 条 边 ， 不 断 重复 直到 找到 最 小 生成 树 的 所 有 边 。 这 
些 算 法 相互 之 间 的 不 同 之 处 在 于 保存 切 分 和 判定 权重 最 小 的 横 切 边 的 方式 ， 但 它们 都 是 以 下 性 质 的 
特殊 情况 。 


命题 K (最 小 生成 树 的 贪心 算法 ) 。 下 面 这 种 方法 会 将 含有 三 个 顶点 的 任意 加 权 连 通 图 中 属于 最 
小 生成 树 的 边 标记 为 黑色 : 初始 状态 下 所 有 边 均 为 灰色 ， 找 到 一 种 切 分 ， 它 产生 的 横 切 边 均 不 为 
黑色 。 将 它 权重 最 小 的 横 切 边 标 记 为 黑色 。 反 复 ， 直 到 标记 了 区 1 条 黑色 边 为 止 。 


证 明 。 为 了 简单 ， 我 们 假设 所 有 边 的 权重 均 不 相同 ， 尽 管 没有 这 个 假设 该 命题 同样 成 立 〈 请 见 
练习 4.3.5 ) 。 根 据 切 分 定理 ， 所 有 被 标记 为 黑色 的 边 均 属于 最 小 生成 树 。 如 果 黑 色 边 的 数量 小 
于 三 1， 必 然 还 存在 不 会 产生 黑色 横 切 边 的 切 分 〈 因 为 我 们 假设 图 是 连通 的 ) 。 只 要 找到 了 大 1 
条 黑色 的 边 ， 这 些 边 所 组 成 的 就 是 一 棵 最 小 生成 树 。 
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en 图 4.3.6 所 示 的 是 这 个 贪心 算法 运行 的 典型 轨迹 。 每 一 幅 
ee 图 表现 的 都 是 一 次 切 分 ， 其 中 算法 识别 了 一 条 权重 最 小 的 横 切 
O 攻 边 〔 红 色 加 粗 ) 并 将 它 加 入 最 小 生成 树 之 中 。 

O 

4.3.2 ”加 权 无 向 图 的 数据 类 型 


加 权 无 向 图 应 该 如 何 表 示 ? 也许 最 简单 的 方法 就 是 扩展 
4.1 节 中 对 无 向 图 的 表示 方法 : 在 邻接 矩阵 的 表示 中 ， 可 以 用 


小 生成 树 中 的 这 边 的 权重 代替 布尔 值 来 作为 矩阵 的 元 素 ; 在 邻接 表 的 表示 中 ， 
O 可 以 在 链表 的 结 点 中 增加 一 个 权重 域 。 ( 和 以 前 一 样 ， 我 们 把 
ce 重点 放 在 稀 玻 图 上 ， 将 邻接 矩阵 的 表示 方法 留 作 练习 。 ) 这 种 


O 经 典 的 方法 很 有 吸引 力 ， 但 我 们 会 使 用 另外 一 种 并 不 太 复杂 的 
〇 ”QO 到 全民 和 表示 方式 。 它 需要 一 个 更 加 通用 的 API 来 处 理 Edge 对 象 ， 能 
够 使 程序 适用 于 更 加 常见 的 场景 ， 请 见 表 4.3.2。 





表 4.3.2 ”加 权 边 的 API 


public class Edge implements Comparable<Edge> 


Edge(int v，int w， 用 于 初始 化 的 构造 
double weight) 函数 


double weight() 边 的 权重 
int either() 边 两 端的 顶点 之 一 
int other(int v) 男 一 个 顶点 
int compareTo(Edge that) 将 这 条 边 。 与 that 
比较 
String toSstring(C) 对 象 的 字符 串 表示 


访问 边 的 端点 的 either() 和 other() 方法 乍 一 看 会 有 些 
奇怪 一 一 在 看 到 调用 它们 的 代码 时 就 会 清楚 了 为 什么 会 有 这 样 
的 需要 了 。Edge 的 实现 请 见 框 注 “ 带 权重 的 边 的 数据 类 型 ”， 
它 是 EdgeWeightedGraph 的 API 的 基础 。 加 权 无 向 图 的 实现 
很 自然 地 使 用 了 Edge 对 象 ， 请 见 表 4.3.3。 





表 4.3.3 加权 无 向 图 的 API 


public class EdgeWeightedGraph 
EdgeWeightedGraph(int V) ”创建 一 幅 含 有 V 个 项 


点 的 空 图 
EdgeWeightedGraph(In in) 从 输入 流 中 读 取 图 
图 4.3.6 贪心 最 小 生成 树 算 法 int, VO 图 的 顶点 数 
( 另 见 彩 插 ) int EO) 图 的 边 数 
void addEdge(Edge e) 向 图 中 添加 一 条 边 e 
Iterable<Edge> adj(int v) 和 v 相关 联 的 所 有 边 
Iterable<Edge> edges() 图 的 所 有 边 605 


2 
String toStringO 对 象 的 字符 串 表示 608 
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这 份 API 和 Graph 的 API (请 见 表 4.1.1 ) 
非常 相似 。 两 者 的 两 个 重要 的 不 同 之 处 在 
于 本 节 API 的 基础 是 Edge 且 添 加 了 一 个 
edges (0) 方法 (请 见 框 注 “返回 加 权 无 向 图 
中 的 所 有 边 ”) 来 遍历 图 的 所 有 边 ( 忽略 自 
环 ) 。 后 面 框 注 “加 权 无 向 图 的 数据 类 型 ” 
中 EdgeweightedGraph 的 实现 的 其 他 部 分 与 
4.1 节 的 无 环 图 的 实现 基本 相同 ， 只 是 在 邻接 


public Iterable<Edge> edges() 
{ 
Bag<Edge> b = new Bag<Edge>() ; 
for (Cint v= 0; Vv < Vi v++) 
for (Edge e : adj[v]) 
if (e.other(v) > v) b.add(e); 
return b; 


返回 加 权 无 向 图 中 的 所 有 边 


表 中 用 Edge 对 象 奉 代 了 Graph 中 的 整数 来 作为 链表 的 结 点 。 

图 4.3.7 显示 的 是 在 处 理 样 例文 件 tinyEWG.txt 时 用 EdgeWeightedGraph 对 象 表示 的 加 权 无 向 
图 。 它 按照 1.3 节 中 的 标准 实现 显示 了 链表 中 每 个 Bag 对 象 的 内 容 。 为 了 整洁 ， 用 一 对 int 值 和 一 
个 double 值 表 示 每 个 Edge 对 象 。 实 际 的 数据 结构 是 一 个 链表 ， 其 中 每 个 元 素 都 是 一 个 指向 含有 
这 些 值 的 对 象 的 指针 。 需 要 特别 注意 的 是 ， 虽 然 每 个 Edge 对 象 都 有 两 个 引用 〈 每 个 顶点 的 链表 中 
都 有 一 个 ) ， 但 图 中 的 每 条 边 所 对 应 的 Edge 对 象 只 有 一 个 。 在 示意 图 中 , 边 在 链表 中 的 出 现 顺序 
和 处 理 它 们 的 顺序 是 相反 的 ， 这 是 由 于 标准 链表 实现 和 栈 的 相似 性 所 导致 的 。 和 Graph 一 样 ， 使 用 
Bag 对 象 可 以 保证 用 例 的 代码 和 链表 中 对 象 的 顺序 是 无 关 的 。 
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图 4.3.7 加 权 无 向 图 的 表示 


public class Edge implements Comparable<Edge> 


{ 
private final int v; 
private final int w; 
private final double weight; 


// 顶点 之 一 
// 另 一 个 顶点 
// 边 的 权重 


public Edge(int v, int w, double weight) 


{ 


thiS Vv m= Vi 
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this.w = w; 
this.weight = weight; 
} 


public double weight() 
{ return weight; } 


public int either() 
{ return v; } 


public int other(int vertex) 





{ 
if (vertex == V) return w; 
else if (vertex Ww) return v; 
else throw new RuntimeExceptiont “Inconsistent edge” ); 
+ 
public int compareTo(Edge that) 
{ 
1 (this.weight() < that.weight()) return -1; 
else if (this.weight() > that.weight()) return +1; 
else return 0; 
} 


public String toStringO) 
{ return String.format(“%d-%d %.2f” , v, w, weight); } 


} 


该 数据 结构 提供 了 either() 和 other() 两 个 方法 。 在 已 知 一 个 顶点 v 时 ， 用 例 可 以 使 用 other(v) 
来 得 到 边 的 另 一 个 顶点 。 当 两 个 顶点 都 是 未 知 的 时 候 ， 用 例 可 以 使 用 惯用 代码 v=e.either()，w=e. 


other(v) ; 来 访问 一 个 Edge 对 象 e 的 两 个 顶点 。 
加 权 无 向 图 的 数据 类 型 
public class EdgeWeightedGraph 
| e final nt VY: /7 顶点 总 数 
1 洁 // 边 的 总 数 
Bag<Edge>[] adj; // 邻接 表 





publ EdgeWeightedGraph(int V) 


a {Bag<Edge>[]) new Bag[V] ; 
for (Cint Vv O; v < VY: V++) 


adjiv] new Bag<Edge>(): 


public EdgewWeightedGraph(in in} 


// 见 练习 4.3.9 





public void addEdge (Edge e) 


int v = e.either(), w = e.other(v); 
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adj[lvi.addte); 
] liv! C 
adj[wl.add(e); 


E+ 地; 


public Iterable<Edge> adi(int v) 


{ return adj[lv]; 


public Iterable<Edge> edges() 
// 请 见 4.3.2 节 框 注 “ 返 回 加 权 无 向 图 中 的 所 有 边 ” 


该 实现 使 用 了 一 个 由 顶点 索引 的 邻接 表 。 与 Graph ( 请 见 4.1.2.2 节 框 注 “Graph 数据 类 型 ”) 
一 样 ， 每 条 边 都 会 出 现 两 次 : 如 果 一 条 边 连 接 了 顶点 v 和 w， 那 么 它 既 会 出 现在 v 的 链表 中 也 会 出 
现在 w 的 链表 中 。edges 0) 方法 将 所 有 边 放 在 一 个 Bag 对 象 中 (请 见 4.3.2 节 框 注 “ 返 回 加 权 无 向 
图 中 的 所 有 边 ” ) 。toString0Q) 方法 的 实现 留 作 练 习 。 





4.3.2.1 用 权重 来 比较 边 

API 说明 Edge 类 必须 实现 Comparable 接口 并 包含 一 个 compareTo0) 方法 。 一 幅 加 权 无 向 图 中 
的 边 的 自然 次 序 就 是 按 权 重 排序 ， 相 应 的 compareTo() 方法 的 实现 也 就 很 简单 了 。 
4.3.2.2 平行 边 

和 无 环 图 的 实现 一 样 ， 这 里 也 允许 存在 平行 边 。 我 们 也 可 以 用 更 复杂 的 方式 实现 Edge- 
WeightedGraph 类 来 消除 平行 边 ， 比 如 只 保留 平行 的 边 中 的 权重 最 小 者 。 
4.3.3.3 自 环 

允许 存在 自 环 。 尽 管 自 环 可 能 的 确 存 在 于 输入 或 是 数据 结构 之 中 ,但 是 EdgeweightedGraph 
中 edge() 的 实现 并 没有 统计 它们 。 这 对 最 小 生成 树 算法 没有 影响 ， 因 为 最 小 生成 树 肯 定 不 会 含有 
自 环 。 如 果 在 应 用 中 自 环 很 重要 ， 那 你 或 许 需 要 根据 应 用 场景 修改 代码 。 

你 会 看 到 ， 有 了 Edge 对 象 之 后 用 例 的 代码 就 可 以 变 得 更 加 干净 整洁 。 这 也 有 个 小 小 的 代价 : 
每 个 邻接 表 的 结 点 都 是 一 个 指向 Edge 对 象 的 引用 ， 它 们 含有 一 些 宛 余 的 信息 (v 的 邻接 链表 中 的 
每 个 结 点 都 会 用 一 个 变量 保存 v ) 。 使 用 对 象 也 会 带 来 一 些 开 销 。 虽 然 每 条 边 的 Edge 对 象 都 只 
一 个 ， 但 邻接 表 中 还 是 会 含有 两 个 指向 同一 Edge 对 象 的 引用 。 另 一 种 广泛 使 用 的 方案 是 与 Graph 
一 样 ， 用 两 个 结 点 对 象 来 表示 一 条 边 ， 每 个 结 点 对 象 都 会 保存 顶点 的 信息 和 边 的 权重 。 这 种 方法 也 
是 有 代价 的 一 一 需要 两 个 结 点 ， 每 条 边 的 权重 都 会 被 保存 两 遍 。 


4.3.3 ”最 小 生成 树 的 API 和 测试 用 例 

按照 惯例 ， 在 API 中 会 定义 一 个 接受 加 权 无 向 图 为 参数 的 构造 函数 并 且 支 持 能 够 为 用 例 返 回 图 
的 最 小 生成 树 和 其 权重 的 方法 。 那 么 我 们 应 该 如 何 表示 最 小 生成 树 呢 ? 由 于 图 G 的 最 小 生成 树 是 G 
的 一 幅 子 图 并 且 同 时 也 是 一 棵 树 ， 因 此 我 们 有 很 多 选择 ， 最 主要 的 几 种 表示 方法 为 : 

口 一 组 边 的 列表 ; 

口 一 幅 加 权 无 向 图 ; 

口 一 个 以 顶点 为 索引 且 含有 父 结 点 链接 的 数组 。 

在 为 各 种 应 用 选择 这 些 表 示 方 法 时 ， 我 们 希望 尽量 给 予 最 小 生成 树 的 实现 以 最 大 的 灵活 性 ， 因 
此 我 们 采用 了 表 4.3.4 所 示 的 API。 
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表 4.3.4 最 小 生成 树 的 API 
public class MST 





MST(EdgeWeightedGraph 0G) 构造 函数 
Iterable<Edge> edges() 最 小 生成 树 的 所 有 边 
double weight() 最 小 生成 树 的 权重 


4.3.3.1 测试 用 例 
和 以 前 一 样 ， 我 们 会 创建 样 图 并 开发 一 个 a lin 
测试 用 例 来 测试 最 小 生成 树 的 实现 。 右 侧 框 注 or 


就 是 一 个 示例 。 它 从 输入 流 中 读 取 图 的 所 有 边 In in = new In(args[0]); 
we i 人 i EdgeweightedGraph G; 
并 构造 一 幅 加 权 无 向 图 ， 然 后 计算 该 图 的 最 小 G = new EdgeWeightedGraph(in); 613 
生成 树 并 打印 树 的 所 有 边 和 权重 之 和 。 CR 
4.3.3.2 ”测试 数据 for (Edge e : mst.edges()) 
StdOut.println(e):; 
你 可 以 在 本 书 的 网 站 上 找到 tinyEWG.txt StdOut. | nt rnt wt ); 


文件 ， 它 定义 了 我 们 用 来 展示 最 小 生成 树 算法 } 

的 轨迹 样 图 ( 请 见 图 4.3.1 ) 。 在 网 站 上 你 还 能 re 

找到 mediumEWG.txt， 它 定义 了 一 幅 含 有 250 最 个 下风 横 的 测 光 于 例 

个 顶点 的 加 权 无 向 图 ， 如 图 4.3.8 所 示 。 它 也 是 一 幅 欧 拉 图 的 示例 ， 它 的 顶点 都 是 平面 上 的 点 ， 边 为 
连接 它们 的 线段 且 权 重 为 两 点 之 间 的 欧 拉 距离 。 这 样 的 图 有 助 于 我 们 理解 最 小 生成 树 算法 的 行为 ， 同 
时 也 是 我 们 提 到 过 的 许多 典型 实际 问题 的 模型 ， 例 如 公路 地 图 和 电路 图 。 在 本 书 的 网 站 上 你 还 能 找到 
一 幅 较 大 的 样 图 largeEWG.txt， 它 是 一 幅 含 有 一 百 万 个 顶点 的 欧 拉 图 。 我 们 的 目标 就 是 在 合理 的 时 间 
范围 内 通过 计算 得 到 这 种 规模 的 图 的 最 小 生成 树 。 


% more tinyEWG. txt % more mediumEWG.txt 
8 16 250 1273 
4 5 .35 244 246 0.11712 
4 7 :37 239 240 0.10616 
5 7 8 238 245 0.06142 
O07 .16 235 238 0.07048 
PF 辣 ， 汉 人 233 240 0.07634 
0 4 .38 232 248 0.10223 
pW 231 248 0.10699 
ed 229 249 0.10098 
0 Zi26 228 241 0.01473 
1 6 226 231 0.07638 
me .，。 [还 有 1263 条 边 ] 
2 .134 
G92: 46 % java MST mediumEWG.txt 
6 尖 安 0 225 0.02383 
6 0 .58 49 225 0.03314 
6' 193 44 49 0.02107 
44 204 0.01774 
% java MST tinyEWG.txt 49 97 0.03121 
0-7 0.16 202 204 0.04207 
1-7 0.19 176 202 0.04299 
0-2 0.26 176 191 0.02089 
2-3 0.17 68 176 0.04396 
5-7 0.28 58 68 0.04795 
4-5 0.35 [还 有 293 条 边 ] 
6-2 0.40 10. 46351 
1.81 
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加 权 无 向 图 最 小 生成 树 


图 4.3.8 一 幅 含 有 250 个 顶点 的 无 向 加 权 欧 拉 图 ( 共 含 有 1273 条 边 ) 和 它 的 最 小 生成 树 


4.3.4 ”Prim 算法 


我 们 要 学 习 的 第 一 种 计算 最 小 生成 树 的 方法 叫做 Prim 算法 ， 它 的 每 一 步 都 会 为 一 棵 生长 中 的 
树 添加 一 条 边 。 一 开始 这 棵 树 只 有 一 个 项 点， 然后 会 向 它 添加 天 1 条 边 ， 每 次 总 是 将 下 一 条 连接 树 


中 的 一 条 横 切 边 ) ， 如 图 4.3.9 所 示 。 


命题 L。Prim 算法 能 够 得 到 任意 加 权 无 向 图 的 最 小 生成 树 。 


证 明 。 由 命题 氏 可 知 ， 这 棵 不 断 生 长 的 树 定义 了 一 个 切 分 且 不 存在 黑色 的 横 切 边 。 该 算法 会 选 
取 权 重 最 小 的 横 切 边 并 根据 贪心 算法 不 断 将 它们 标记 为 黑色 。 


以 上 我 们 对 Prim 算法 的 简单 描述 没有 回答 一 个 关键 的 问 
题 ， 如 何 才能 ( 有 效 地 ) 找到 最 小 权重 的 横 切 边 呢 ? 人 们 提 失效 的 边 。“( 纪 几 ) 
出 了 很 多 方法 一 一 在 用 一 种 特别 简单 的 方法 解决 这 个 问题 之 
后 我 们 会 讨论 其 中 的 一 部 分 方法 。 
4.3.4.1 数据 结构 

实现 Prim 算法 需要 用 到 一 些 简单 常见 的 数据 结构 。 具 体 来 















说 ， 我 们 会 用 以 下 方法 表示 树 中 的 顶点 、 边 和 横 切 边 。 将 要 添加 到 最 
口 顶点。 使 用 一 个 由 顶点 索引 的 布尔 数组 marked[] ， 如 ne 
、 树 中 的 边 ” 权重 最 小 的 模 
果 顶 点 v 在 树 中 ， 那 么 marked[v] 的 值 为 true。 中 | 切 边 
口 边 。 选 择 以 下 两 种 数据 结构 之 一 : 一 条 队列 mst 来 保 pa > = 

存 最 小 生成 树 中 的 边 ， 或 者 一 个 由 顶点 索引 的 Edge 对 | 

4.3.9 、 时 和 P ? 
象 的 数组 edgeTo[] ， 其 中 edgeTo[v] 为 将 v 连接 到 on Bi 


树 中 的 Edge 对 象 。 
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口 横 切 边 : 使 用 一 条 优先 队列 MinPQ<Edge> 来 根据 权重 比较 所 有 边 ( 请 见 4.3.2 节 框 注 “ 带 权 
重 的 边 的 数据 类 型 ”) 。 
有 了 这 些 数据 结构 我 们 就 可 以 回答 “ 哪 条 边 的 权重 最 小 ? ”这 个 基本 的 问题 了 。 
4.3.4.2 ”维护 横 切 边 的 集合 
每 当 我 们 向 树 中 添加 了 一 条 边 之 后 ， 也 
向 树 中 添加 了 一 个 顶点 。 要 维护 一 个 包含 所 有 







横 切 边 的 集合 ， 就 要 将 连接 这 个 顶点 和 其 他 。 ”* 表示 新 

所 有 不 在 树 中 的 顶点 的 边 加 入 优先 队列 (用 加 RS 

marked[] 来 识别 这 样 的 边 ) 。 但 还 有 一 点 : a a SE 

连接 新 加 入 树 中 的 项 点 与 其 他 已 经 在 树 中 顶点 0-2 0.26 (按照 权重 排序 ) 

的 所 有 边 都 失效 了 。 (这 样 的 边 都 已 经 不 是 横 。 ”2-7 0'34 

切 边 了 ， 因 为 它 的 两 个 顶点 都 在 树 中 。 ) Prim * 3 3 

算法 的 即时 实现 可 以 将 这 样 的 边 从 优先 队列 中 6-0 0.58 a 

删 掉 ， 但 我 们 先 来 学 习 这 个 算法 的 一 种 延 时 实 5-7 0.28 

现 ， 将 这 些 边 先 留 在 优先 队列 中 ， 等 到 要 删除 和 

它们 的 时 候 再 检查 边 的 有 效 性 。 :7 了 天 
图 4.3.10 是 处 理 样 图 tnyEWG.txt 的 轨迹 。 4-7 0.37 

每 一 张 图 片 都 是 算法 访问 过 一 个 顶点 之 后 (被 ” BE 


添加 到 树 中 ， 邻 接 链 表 中 的 边 也 已 经 被 处 理 完 
成 ) 图 和 优先 队列 的 状态 。 优 先 队列 的 内 容 被 
按照 顺序 显示 在 一 侧 ， 树 中 的 新 顶点 旁边 有 个 
星 号 。 算 法 构造 最 小 生成 树 的 过 程 如 下 所 述 。 

口 将 顶点 0 添加 到 最 小 生成 树 之 中 ， 将 它 
的 邻接 链表 中 的 所 有 边 添加 到 优先 队列 
之 中 。 

口 将 顶点 7 和 边 0-7 添加 到 最 小 生成 树 
之 中 ， 将 顶点 的 邻接 链表 中 的 所 有 边 
添加 到 优先 队列 之 中 。 

口 将 项 点 1 和 边 1-7 添加 到 最 小 生成 树 
之 中 ,将 顶点 的 邻接 链表 中 的 所 有 边 
添加 到 优先 队列 之 中 。 

口 将 顶点 2 和 边 0-2 添加 到 最 小 生成 树 
之 中 ,将 边 2-3 和 6-2 添加 到 优先 队 
列 之 中 。 边 2-7 和 1-2 失效 。 

口 将 顶点 3 和 边 2-3 添加 到 最 小 生成 树 
之 中 , 将 边 3-6 添加 到 优先 队列 之 中 。 
边 1-3 失效 。 

口 将 顶点 5 和 边 5-7 添加 到 最 小 生成 树 
之 中 , 将 边 4-5 添加 到 优先 队列 之 中 。 
边 1-5 失效 。 图 4.3.10 ”Prim 算法 的 轨迹 ( 延 时 实现 ， 另 见 彩 插 ) 
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口 从 优先 队列 中 删除 失效 的 边 1-3、1-5 和 2-7。 

口 将 顶点 4 和 边 4-5 添 加 到 最 小 生成 树 之 中 ,将 边 6-4 添 加 到 优先 队列 之 中 。 边 4-7 和 0-4 失 效 。 

口 从 优先 队列 中 删除 失效 的 边 1-2、4-7 和 0-4。 

口 将 顶点 6 和 边 6-2 添加 到 最 小 生成 树 之 中 ， 和 顶点 6 相关 联 的 其 他 边 均 类 效 。 

在 添加 了 VV 个 顶点 (以 及 广 1 条 边 ) 之 后 ， 最 小 生成 树 就 完成 了 。 优 先 队 列 中 的 余下 的 边 都 是 
无 效 的 ， 不 需要 再 去 检查 它们 。 
4.3.4.3 ”实现 

有 了 这 些 预备 知识 ，Prim 算法 的 实现 就 很 简单 了 ， 请 见 后 面 框 注 “ 最 小 生成 树 的 Prim 算法 的 
延 时 实现 ”中 的 LazyPrimMST 类 。 和 前 两 节 实 现 深度 优先 搜索 和 广度 优先 搜索 一 样 ， 实 现 会 在 构 
造 函 数 中 计算 图 的 最 小 生成 树 ， 这 样 用 例 方法 就 可 以 用 查询 类 方法 获得 最 小 生成 树 的 各 种 属性 。 我 
们 使 用 了 一 个 私有 方法 visit() 来 为 树 添加 一 个 顶点 、 将 它 标记 为 “已 访问 ”并 将 与 它 关联 的 所 
有 未 失效 的 边 加 入 优先 队列 ， 以 保证 队列 含有 所 有 连接 树 顶 点 和 非 树 顶 点 的 边 ( 也 可 能 含有 一 些 已 
经 失效 的 边 ) 。 代 码 的 内 循环 是 算法 的 具体 实现 : 我 们 从 优先 队列 中 取出 一 条 边 并 将 它 添加 到 树 中 
( 如 果 它 还 没有 失效 的 话 ) ， 再 把 这 条 边 的 另 一 个 顶点 也 添加 到 树 中 ， 然 后 用 新 顶点 作为 参数 调用 
visit(0) 方法 来 更 新 横 切 边 的 集合 。weight (0) 方法 可 以 遍历 树 的 所 有 边 并 得 到 它们 的 权重 之 和 ( 延 
时 实现 ) 或 是 用 一 个 运行 时 的 变量 统计 总 权重 ( 即时 实现 ) ， 这 一 点 留 作 练习 4.3.31。 
4.3.4.4 运行 时 间 

Prim 算法 有 多 快 ? 我 们 已 经 知道 优先 队列 的 性 质 ， 所 以 要 回答 这 个 问题 并 不 困难 。 


命题 M。Prim 算法 的 延 时 实现 计算 一 幅 含 有 天 个 顶点 和 已 条 边 的 连通 加 权 无 向 图 的 最 小 生成 树 
所 需 的 空间 与 已 成 正比 ， 所 需 的 时 间 与 BlogE 成 正比 ( 最 坏 情 况 ) 。 


证 明 。 算 法 的 瓶颈 在 于 优先 队列 的 insert() 和 de1Min() 方法 中 比较 边 的 权重 的 次 数 。 优 先 
队列 中 最 多 可 能 有 五 条 边 ， 这 就 是 空间 需求 的 上 限 。 在 最 坏 情况 下 ， 一 次 插入 的 成 本 为 ~ lgE， 
娠 除 最 小 元 素 的 成 本 为 ~ 2lgE (请 见 第 2 章 的 命题 O ) 。 因 为 最 多 只 能 插入 已 条 边 ， 删 除 五 次 
最 小 元 素 ， 时 间 上 限 显而易见 。 


在 实际 中 ,估计 的 运行 时 间 上 限 是 比较 保守 的 ， 因 为 一 般 情况 下 优先 队列 中 的 边 都 远 小 于 5。 
这 么 困难 的 任务 ,解决 方法 却 如 此 的 简单 、 高 效 而 实用 ， 实 在 令 人 人 佩服。 下面， 我 们 会 简要 讨论 一 
些 改进 算法 的 方法 。 和 以 前 一 样 , 在 性 能 优先 的 应 用 场景 中 仔细 评估 这 些 改 进 的 工作 应 该 留 给 专家 。 
最 小 生成 树 的 Prim 算法 的 延 时 实现 


public class LazyPrimMST 





private boolean[] marked; // 最 小 生成 树 的 顶点 
private Queue<Edge> mst; // 最 小 生成 树 的 边 
private MinPQ<Edge> pq; // 横 切 边 (包括 失效 的 边 ) 


public LazyPrimMST(EdgeWeightedGraph G) 
pq = new MinPQ<Edge>() ; 
marked = new boolean[G.VO]; 
mst = new Queue<Edge>() ; 


visit(G, 0); // 假设 G 是 连通 的 (请 见 练习 4.3.22) 
while (!pq.isEmpty()) 
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{ 
Edge e = pq.delMin(); // 从 pq 中 得 到 权重 最 小 的 边 
int v = e.either(), w = e.other(v); // 跳 过 失效 的 边 
if (marked[v] && marked[w]) continue; 
mst.enqueue(e); // 将 边 添加 到 树 中 
if (!marked[v]) visit(G, v); // 将 项 点 (Vv 或 W ) 添加 到 树 中 
if (Imarked[w]) visit(G, w); 

} 


} 


private void visit(EdgeWeightedCraph G, int v) 
{ // 标记 顶点 Vv 并 将 所 有 连接 V 和 未 被 标记 顶点 的 边 加 入 pq 
marked[v] = true; 
for (Edge e : G.adj(v)) 
if (!marked[e.other(v)]) pq.insert(e); 
} 


public Iterable<Edge> edges(Q) 
{ return mst; 


public double weight() 请 见 练习 4.3.31 
} 
Prim 算法 的 这 种 实现 使 用 了 一 条 优先 队列 来 保存 所 有 的 横 切 边 、 一 个 由 顶点 索引 的 队列 来 标记 树 的 
顶点 以 及 一 条 队列 来 保存 最 小 生成 树 的 边 。 这 种 延 时 实现 会 在 优先 队列 中 保留 失效 的 边 。 


4.3.5 ”Prim 算法 的 即时 实现 
要 改进 LazyPrimMST， 可 以 尝试 从 优先 队列 中 删除 失效 的 






边 ， 这 样 优先 队列 就 只 含有 树 顶 点 和 非 树 顶点 之 间 的 横 切 边 ， en 
但 其 实 还 可 以 删除 更 多 的 边 。 关 键 在 于 ， 我 们 感 兴趣 的 只 是 连 | 
接 树 顶点 和 非 树 顶点 中 权重 最 小 的 边 。 当 我 们 将 顶点 v 添加 到 

树 中 时 ， 对 于 每 个 非 树 顶 点 w 产生 的 变化 只 可 能 使 得 w 到 最 小 


生成 树 的 距离 更 近 了 ， 如 图 4.3.11 所 示 。 简 而 言 之 ， 我 们 不 需 
要 在 优先 队列 中 保存 所 有 从 w 到 树 顶点 的 边 一 一 而 只 需要 保存 使 得 w 和 树 
其 中 权重 最 小 的 那 条 ， 在 将 v 添加 到 树 中 后 检查 是 否 需 要 更 新 的 距离 更 近 了 
这 条 权重 最 小 的 边 ( 因为 v-w 的 权重 可 能 更 小 ) 。 我 们 只 需 遍 43.11 Prim 算法 的 即时 实现 
历 v 的 邻接 链表 就 可 以 完成 这 个 任务 。 换 句 话 说， 我 们 只 会 在 
优先 队列 中 保存 每 个 非 树 顶点 w 的 一 条 边 : 将 它 与 树 中 的 顶点 连接 起 来 的 权重 最 小 的 那 条 边 。 将 w 和 
树 的 顶点 连接 起 来 的 其 他 权重 较 大 的 边 迟 早 都 会 失效 ， 所 以 没 必要 在 优先 队列 中 保存 它们 。 

PrimMST 类 (请 见 算法 4.7) 使 用 了 2.4 节 中 介绍 的 索引 优先 队列 实现 的 Prim 算法 。 它 将 
LazyPrimMST 中 的 marked[] 和 mst[] 替换 为 两 个 顶点 索引 的 数组 edgeTo[] 和 distTo[] ， 它 们 
具有 如 下 性 质 。 





distTo[v] 为 这 条 边 的 权重 。 
口 所 有 这 类 顶点 v 都 保存 在 一 条 索引 优先 队列 中 , 索引 v 关 联 的 值 是 edgeTo[v] 的 边 的 权重 。 
这 些 性 质 的 关键 在 于 优先 队列 中 的 最 小 键 即 是 权重 最 小 的 横 切 边 的 权重 ， 而 和 它 相 关联 
的 顶点 vV 就 是 下 一 个 将 被 添加 到 树 中 的 顶点 。marked[] 数组 已 经 没有 必要 了 ， 因 为 判断 条 
件 Imarked[w] 等 价 于 distTo[w] 是 无 穷 的 ( 且 edgeTo[w] 为 nu11)。 要 维护 这 些 数据 结构 ， 
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PrimMST 会 从 优先 队列 中 取出 一 条 边 v edgeTol] distTol] 
并 检查 它 的 邻接 链表 中 的 每 条 边 v-w。 gh 
如 果 w 已 经 被 标记 过 ， 那 么 这 条 边 就 je 
已 经 失效 了 ;如果 w 不 在 优先 队列 中 Ee 
或 者 v-w 的 权重 小 于 目前 已 知 的 最 小 7 0- 0.16 < 
值 edgeTo[w] ， 代 码 会 更 新 数组 ， 将 1 
v-w 作为 将 v 和 树 连接 的 最 佳 选择 。 2 
图 4.3.12 所 示 的 是 PrimMST 在 处 理 生成 中 的 过 5 7 0.28 
样 图 tinyEWG.txt 过 程 中 的 轨迹 。 将 每 © 局 0 
个 顶点 加 入 最 小 生成 树 之 后 ，edgeTor] GD A 
和 distTo[] 的 内 容 显 示 在 右 侧 ， 不 同 © 2 
的 颜色 显示 了 最 小 生成 树 中 的 顶点 (过 。。 pq) 中 > a 
引 为 黑色 ) 、 非 最 小 生成 树 的 顶点 ( 索 一 一 
引 为 灰色 ) 、 最 小 生成 树 的 边 ( 黑色 ) @ Re 
和 优先 队列 中 的 索引 值 对 (红色 ) 。 在 人 ?92 0.26 
示意 图 中 ， 将 每 个 非 最 小 生成 树 顶 点 连 。。” 生成 中 能 人 名 2 ON 4 
接 到 树 的 最 短 边 为 红色 。 该 算法 向 最 小 g— $ 2 9-4 
生成 树 中 添加 的 边 的 顺序 和 延 时 版 本 相 人 
同 ， 不 同 之 处 在 于 优先 队列 的 操作 。 它 @ 2 092 0.26 
构造 最 小 生成 树 的 过 程 如 下 所 述 。 Ps: 忆 
口 将 顶点 0 添加 到 最 小 生成 树 之 Ss 6 2 940 
中 ， 将 它 的 邻接 链表 中 的 所 有 边 。。 俯 列 (po) 中 的 最 a 
添加 到 优先 队列 之 中 ， 因 为 这 些 。 信里 六 汪 加 (@) bP ® 2 0-2 0.26 
边 都 是 目前 (唯一 ) 已 知 的 连接 \ a 0 Ye 
非 树 顶 点 和 树 顶 点 的 最 短 边 。 @) - 四 和 8 
口 将 顶点 7 和 边 0-7 添加 到 最 小 生 
成 树 之 中 ， 将 边 1-7 和 5-7 添加 © ? © 1 7 0 
到 优先 队列 之 中 。 边 4-7 和 2-7 a 1 0 
不 会 影响 到 优先 队列 ， 因 为 它们 @ 2 
的 权重 分 别 都 大 于 连接 项 点 2 和 
4 与 最 小 生成 树 的 最 小 边 。 Ge 1 1.7 
口 将 顶点 1 和 边 1-7 添加 到 最 小 生 da) 和 
成 树 之 中 ， 将 边 1-3 添加 到 优先 © 全 
eS (4) GG 
口 将 顶点 2 和 边 0-2 添加 到 最 小 生 9 
成 料 之 中 ， 将 连接 希 点 忆 与 树 的 4.3.12 Prim 算法 的 轨迹 (即时 版 本 ， 另 见 彩 揪 ) 
最 小 边 由 0-6 替换 为 2-6， 将 连接 项 点 3 与 树 的 最 小 边 由 1-3 替换 为 2-3 
口 将 顶点 3 和 边 2-3 添加 到 最 小 生成 树 之 中 。 
口 将 顶点 5 和 边 5-7 添加 到 最 小 生成 树 之 中 ,将 连接 顶点 4 与 树 的 最 小 边 由 0-4 替换 为 4-5。 


口 将 顶点 4 和 边 4-5 添加 到 最 小 生成 树 之 中 。 


4.3 


口 将 顶点 6 和 边 6-2 添加 到 最 小 生成 树 之 中 。 
添加 了 太 1 条 边 之 后 ， 最 小 生成 树 完成 且 优 先 队 列 为 空 。 


算法 4.7 最 小 生成 树 的 Prim 算法 (即时 版 本 ) 


public class PrimMST 


private Edge[] edgeTo; // 距离 树 最 近 的 边 
private double[] distTo; // distTo[w]=edgeTo[w] .weight() 
private boolean[] marked; // 如 果 V 在 树 中 则 为 true 
private IndexMinPQ<Double> pq; // 有 效 的 横 切 边 
public PrimMST(EdgeWeightedGraph 0G) 
{ 
edgeTo = new Edge[G.VO]; 
distTo = new double[G.VO]; 
marked = new boolean[G.VO]; 
for Cint v = 0; v < G.V(); v++) 
distTo[v] = Double.POSITIVE_INFINITY:; 
pq = new IndexMinPQ<Double>(G.VO)); 
distTo[0] = 0.0; 
pq.insert(0, 0.0); // 用 顶点 0 和 权重 0 初始 化 pq 
while (!pq.isEmpty()) 
visit(G, pq.delMin()); // 将 最 近 的 顶点 添加 到 树 中 
$ 
private void visit(EdgeWeightedGraph G, int v) 
{ // 将 顶点 V 添 加 到 树 中 ， 更 新 数据 
marked[v] = true; 
for (Edge e : G.adj(v)) 
int w = e.other(v); 
if (marked[w]) continue; // V-W 失 效 
if (e.weight() < distTo[w]) 
{ // 连接 w 和 树 的 最 佳 边 Edge 变 为 e 
edgeTo[w] = e; 
distTo[w] = e.weight(); 
if (pq.contains(w)) pq.change(w, distTo[w]); 
else pq.insert(w, distTo[w]); 
} 
} 
public Iterable<Edge> edges() // 请 见 练习 4.3.21 
public double weight() // 请 见 练习 4.3.31 
J} 


这 份 Prim 算法 的 实现 将 所 有 有 效 的 横 切 边 保存 在 了 一 条 索引 优先 队列 中 。 
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该 算法 的 证 明 与 命题 M 的 证 明 本 质 上 相同 ，Prim 算法 的 即时 版 本 可 以 找到 一 幅 连 通 的 加 权 无 
向 图 的 最 小 生成 树 ， 所 需 时 间 和 百 ogF 成 正比 ， 空 间 和 三成 正比 (请 见 命题 N ) 。 对 于 实际 应 用 中 
经 常 出 现 的 巨型 稀 朴 图 ， 两 者 在 时 间 上 限 上 没有 什么 区 别 (因为 对 于 稀 朴 图 来 说 是 lgE ~ lgV) ， 
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但 空间 上 限 变 为 了 原来 的 一 个 常数 因子 ( 但 很 显著 ) 。 在 性 能 优先 的 应 用 场景 中 ， 更 加 深入 的 分 析 
和 实验 最 好 还 是 留 给 专家 吧 , 因为 相关 的 因素 有 很 多 ,例如 MinPQ 和 IndexPQ 的 实现 、 图 的 表示 方法 、 
应 用 场景 所 使 用 的 图 模型 等 。 按 照 惯例 ， 我 们 需要 仔细 研究 这 些 改进 ， 因 为 只 有 当 这 种 常数 因子 的 
性 能 改进 非常 必要 时 ， 它 所 带 来 的 代码 复杂 性 才 是 值得 的 。 在 复杂 的 现代 系统 中 有 时 这 样 做 甚至 会 
得 不 偿 失 。 


命题 N。Prim 算法 的 即时 实现 计算 一 幅 含 有 信 个 顶点 和 羽 条 这 的 连通 加 权 无 向 图 的 最 小 生成 树 
所 需 的 空间 和 矿 成 正比 ， 所 需 的 时 间 和 Blog 成 正比 (最 坏 情况 ) 。 


证 明 。 因 为 优先 队列 中 的 边 数 最 多 为 让 且 使 用 了 三 条 由 顶点 索引 的 数组 ， 所 以 所 需 空间 的 上 

限 和 天 成 正比 。 算 法 会 进行 严 次 插入 操作 ， 严 次 删除 最 小 元 素 的 操作 和 (在 最 坏 情况 下 )E 次 

改变 优先 级 的 操作 。 已 知 在 基于 扒 实现 中 的 索引 优先 队列 中 所 有 这 些 操作 的 增长 数量 级 为 logF 
(请 见 第 2 章 命题 Q ) ， 所 以 将 所 有 这 些 加 起 来 可 知 算法 所 需 时 间 和 ElogV 成 正比 。 


图 4.3.13 展示 了 Prim 算法 是 如 何 处 理 含 有 250 个 顶点 的 欧 拉 图 mediumEWG.txt 的 。 这 是 
一 个 很 有 意思 的 动态 过 程 ( 证 机 练习 4.3.27 ) 。 大 多 数 情况 下 ， 树 的 生长 都 是 通过 连接 一 个 和 
新 加 入 的 顶点 相 邻 的 项 点。 当 新 加 入 的 项 点 周围 没有 韭 树 顶 点 时 ， 树 的 生长 又 会 从 男 一 部 分 
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图 4.3.13 ”Prim 算法 (250 个 顶点 ) 


4.3.6 ”Kruskal 算法 
我 们 要 仔细 学 习 的 第 二 种 最 小 生成 树 算法 的 主要 思想 是 按照 边 的 权重 顺序 (从 小 到 大 ) 处 理 它们 ， 
将 边 加 入 最 小 生成 树 中 (图 中 的 黑色 边 ) ， 加 入 的 边 不 会 与 已 经 加 入 的 边 构 成 环 ， 直 到 树 中 含有 三 1 


条 边 为 止 。 这 些 黑色 的 边 逐 渐 由 一 片 森林 合并 为 一 棵 树 ， 也 就 是 图 的 最 小 生成 树 。 这 种 计算 方法 被 称 为 
Kruskal 算法 。 


(DO) 
ce gg 
GO 

@ 


图 4.3.14 Kruskal 算法 的 轨迹 ( 另 见 彩 插 ) 
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命题 O。Kruskal 算法 能 够 计算 任意 加 权 无 向 图 
的 最 小 生成 树 。 


证 了 明 。 由 命题 K 可 知 ， 如 果 下 一 条 将 被 加 入 最 
小 生成 树 中 的 边 不 会 和 已 有 的 黑色 边 构成 环 ， 
那么 它 就 跨越 了 由 所 有 和 树 顶 点 相 邻 的 顶点 组 
成 的 集合 以 及 它们 的 补 集 所 构成 的 一 个 切 分 。 
因为 加 入 的 这 条 边 不 会 形成 环 、 它 是 目前 已 知 
的 唯一 一 条 横 切 边 且 是 按照 权重 顺序 选择 的 边 ， 
所 以 它 必然 是 权重 最 小 的 横 切 边 。 因 此 ， 该 算 
法 能 够 连续 选择 权重 最 小 的 横 切 边 ， 和 贪心 算 
法 一 致 


Prim 算法 是 一 条 边 一 条 边 地 来 构造 最 小 生成 树 ， 
每 一 步 都 为 一 棵 树 添 加 一 条 边 。Kruskal 算法 构造 最 
小 生成 树 的 时 候 也 是 一 条 边 一 条 边 地 构造 ， 但 不 同 的 
是 它 寻 找 的 边 会 连接 一 片 森林 中 的 两 棵 树 。 我 们 从 一 
片 由 VV 棵 单项 点 的 树 构成 的 森林 开始 并 不 断 将 两 棵 树 
合并 (用 可 以 找到 的 最 短 边 ) 直到 只 剩 下 一 棵 树 ， 它 
就 是 最 小 生成 树 。 

图 4.3.14 显示 的 是 Kruskal 算法 处 理 tinyEWG.txt 
时 的 每 一 个 步骤 。 首 先 ， 权 重 最 小 的 条 边 都 被 加 入 到 
了 最 小 生成 树 中 ， 之 后 算法 判断 出 1-3、1-5 和 2-7 
已 经 失效 并 将 4-5 加 入 最 小 生成 树 。 最 后 1-2、4-7 
和 0-4 失效 ，6-2 被 加 入 最 小 生成 树 。 

有 了 本 书 中 我 们 已 经 学 习 过 的 许多 工具 ， 
Kruskal 算法 的 实现 并 不 困难 : 我 们 将 会 使 用 一 条 优 
先 队列 (请 见 2.4 节 ) 来 将 边 按照 权重 排序 ， 用 一 
个 union-find 数据 结构 ( 请 见 1.5 节 ) 来 识别 会 形成 
环 的 边 ， 以 及 一 条 队列 (请 见 1.3 节 ) 来 保存 最 小 
生成 树 的 所 有 边 。 算 法 4.8 实现 了 以 上 设想 。 注 意 ， 
使 用 队列 来 保存 最 小 生成 树 的 所 有 边 意味 着 用 例 在 
遍历 时 将 会 按照 权重 的 升序 得 到 这 些 边 。weight() 


方法 需要 遍历 所 有 边 来 取得 权重 之 和 【或 是 使 用 一 个 变量 动态 统计 权重 之 和 ) ， 它 的 实现 留 作 练 


习 (请 见 练习 4.3.31 ) 。 


分 析 Kruskal 算法 所 需 的 运行 时 间 很 简单 ， 因 为 我 们 已 经 知道 它 的 操作 所 需 的 时 间 。 


命题 N〈 续 ) 。Kruskal 算法 的 计算 一 幅 含 有 严 个 顶点 和 已 条 边 的 连通 加 权 无 向 图 的 最 小 生成 
树 所 需 的 空间 和 成 正比 ， 所 需 的 时 间 和 ElogE 成 正比 (最 坏 情 况 ) 。 








406 了 第 4 章 图 


证 上 明 。 算 法 的 实现 在 构造 函数 中 使 用 所 有 边 初始 化 优先 队列 ， 成 本 最 多 为 巨 次 比较 (请 见 2.4 
节 )。 优 先 队 列 构造 完成 后 , 其 余 的 部 分 和 Prim 算法 完全 相同 。 优 先 队 列 中 最 多 可 能 含有 已 条 边 ， 
即 所 需 空间 的 上 限 。 每 次 操作 的 成 本 最 多 为 2lgE 次 比较 ， 这 就 是 时 间 上 限 的 由 来 。Kruskal 算 
法 最 多 还 会 进行 已 次 Connected() 和 WV 次 union() 操作 ， 但 这 些 成 本 相 比 ElogE 的 总 时 间 的 
增长 数量 级 可 以 忽略 不 计 (请 见 1.5 节 )。 


与 Prim 算法 一 样 ， 这 个 估计 是 比较 保守 的 ， 因 为 算法 在 找到 天 1 条 边 之 后 就 会 终止 。 实 际 的 
成 本 应 该 与 B+EologE 成 正比 ， 其 中 为 是 权重 小 于 最 小 生成 树 中 权重 最 大 的 边 的 所 有 边 的 总 数 。 尽 
624| ” 管 拥有 这 个 优势 ，Kruskal 算法 一 般 还 是 比 Prim 算法 要 慢 ， 因 为 在 处 理 每 条 边 时 除了 两 种 算法 都 要 
625| 完成 的 优先 队列 操作 之 外 ， 它 还 需要 进行 一 次 connect() 操作 (请 见 练习 4.3.39 ) 。 
图 4.3.15 所 示 为 Kruskal 算法 在 处 理 较 大 的 样 图 mediumEWG.txt 时 的 动态 情况 。 很 显然 ， 边 是 
按照 权重 顺序 被 添加 到 森林 中 的 。 
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626 图 4.3.15 ” Kruskal 算法 (250 个 顶点 ) 
算法 4.8 ”最 小 生成 树 的 Kruskal 算法 
public class KruskalMST 
{ 
private Queue<Edge> mst; 
public KruskalMST(EdgeWeightedGraph 0G) 
{ 
mst = new Queue<Edge>(); 
MinPQ<Edge> pq = new MinPQ<Edge>(G.edges()); 
UF uf = new UF(G.VO); 
while (!pq.isEmpty() && mst.size() < G.V()-1) 
{ 
Edge e = pq.delMin(); // 从 pq 得 到 权重 最 小 的 边 和 它 的 顶点 


int v = e.either(), w = e.other(v); 
if (uf.connected(v, w)) continue;  /// 忽略 失效 的 边 
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uf.union(v, w); // 合并 分 量 
mst.enqueue(e); // 将 边 添加 到 最 小 生成 树 中 
} 
} 


public Iterable<Edge> edges() 
{ return mst; } 


public double weight() // 请 见 练习 4.3.31 
} 
这 份 Kruskal 算法 的 实现 使 用 了 一 条 队列 来 保 


存 最 小 生成 树 中 的 所 有 边 、 一 条 优先 队列 来 保存 还 % javakruska sr tinyEWo.txt 
未 被 检查 的 边 和 一 个 union-find 的 数据 结构 来 判断 无 。 2-3 0.17 
效 的 边 。 最 小 生成 树 的 所 有 边 会 按照 权重 的 升序 返 。 。 “1-7 0.19 
回 给 用 例 。weight() 方法 的 实现 留 作 练习 。 ee 
4-5 0.35 
6-2 0.40 
1.81 


4.3.7 展望 

最 小 生成 树 问题 是 本 书 中 的 被 研究 的 最 多 的 几 个 问题 之 一 。 解 决 这 个 问题 的 基本 方法 在 现代 数 
据 结构 和 算法 性 能 分 析 手 段 的 发 明之 前 就 已 经 问世 了 。 在 当时 ,计算 一 幅 含 有 上 千 条 边 的 图 的 最 小 
生成 树 还 是 一 项 令 人 望而生畏 的 任务 。 我 们 学 习 的 最 小 生成 树 算 法 和 这 些 老式 方法 的 不 同 之 处 主要 
在 于 运用 了 现代 的 数据 结构 来 完成 一 些 基本 的 操作 ， 这 (再 加 上 现代 的 计算 能 力 ) 使 得 我 们 可 以 计 
算 含 有 上 百 万 甚至 数 十 亿 条 边 的 图 的 最 小 生成 树 。 
4.3.7.1 历史 资料 

计算 稠密 图 的 最 小 生成 树 算法 ( 请 见 练习 4.3.29 ) 最 早 是 由 R.Prim 在 1961 年 发 明 的 ， 随 
后 E.W.Dijkstra 也 独自 发 明了 它 。 尽 管 Dijkstra 的 描述 更 为 通用 ， 但 这 个 算法 通常 被 称 为 Prim 算 
法 。 其 实 算法 的 基本 思想 是 VJarnik 在 1939 年 发 明 的 ， 所 以 一 些 人 也 将 这 种 方法 称 为 Jarnik 算法 
并 认为 Prim 的 ( 或 是 Dijkstra ) 的 贡献 在 于 为 稠密 图 找到 了 高 效 的 实现 算法 。 在 20 世纪 70 年 代 
优先 队列 发 明之 后 ， 它 直接 被 应 用 在 了 寻找 稀疏 图 中 的 最 小 生成 树 上 。 计 算 稀 疏 图 中 的 最 小 生成 
树 所 需 的 时 间 和 ElogE 成 正比 很 快 广为人知 且 并 没有 将 此 归功 于 任何 一 位 研究 者 。 在 1984 年 ， 
M.L.Fredman 和 R.E.Tarjan 发 明了 数据 结构 斐 波 纳 契 堆 ， 将 Prim 算法 所 需 的 运行 时 间 在 理论 上 改 
进 到 了 E+VliogV。J.Kruskal 在 1956 年 就 发 表 了 他 的 算法 ， 但 同样 ， 相 关 的 抽象 数据 结构 在 很 多 年 
中 都 没有 被 仔细 人 研究。 有趣 的 是 ，Kruskal 的 论文 中 提 到 了 Prim 算法 的 一 个 变种 ， 而 0.Boruvka 
在 1926 年 (! ) 的 论文 中 就 已 经 提 到 了 这 两 种 不 同 的 方法 。Boruvka 的 论文 要 解决 的 是 一 个 电 
力 分 配 的 问题 并 介绍 了 另外 一 种 用 现代 数据 结构 可 以 轻易 实现 的 方法 ( 请 见 练习 4.3.43 和 练习 
4.3.44 ) 。M.Sollin 在 1961 年 重新 发 现 了 这 个 方法 。 该 方法 随后 引起 了 其 他 人 的 注意 并 成 为 实现 较 
好 的 渐进 性 能 的 最 小 生成 树 算法 和 平行 最 小 生成 树 算法 的 基础 。 各 种 最 小 生成 树 算法 的 特点 请 见 
表 4.3.5s 


表 4.3.5 各 种 最 小 生成 树 算法 的 性 能 特点 
V 个 项 点 EE 条 边 ， 最 坏 情 况 下 的 增长 数量 级 


wh 空 间 时 间 
延 时 的 Prim 算法 E ElogE 
即时 的 Prim 算法 V ElogV 
Kruskal E ElogE 
Fredman-Tarjan V +Vlog 太 
Chazelle V 非常 接近 但 还 没有 达到 E 
628 理想 情况 V E? 


4.3.7.2 ”线性 的 最 小 生成 树 算法 ? 
一 方面 ， 目 前 还 没有 理论 能 够 证 明 ， 不 存在 能 在 线性 时 间 内 得 到 任意 图 的 最 小 生成 树 的 算法 。 
另 一 方面 ， 发 明 能 够 在 线性 时 间 内 计算 稀疏 图 的 最 小 生成 树 的 算法 仍然 没有 进展 。 自 从 20 世纪 70 
年 代 将 union-find 数据 结构 应 用 于 Kruskal 算法 以 及 将 优先 队列 应 用 于 Prim 算法 之 后 ， 更 好 的 实现 
这 些 抽象 数据 结构 就 成 了 许多 研究 者 的 主要 目标 。 许 多 研究 者 都 将 寻找 高 效 的 优先 队列 的 实现 作为 
找到 稀疏 图 的 高 效 的 最 小 生成 树 算 法 的 关键 ， 而 其 他 一 些 人 则 研究 了 Boruvka 算法 的 一 些 变种 并 将 
它们 作为 近似 于 线性 级 别 的 稀疏 图 的 最 小 生成 树 算法 的 基础 。 这 些 研究 仍然 有 希望 最 终 为 我 们 带 来 
一 个 实用 的 线性 最 小 生成 树 算法 ， 它 们 甚至 已 经 显示 了 一 个 线性 时 间 的 随机 化 算法 的 存在 性 。 研 究 
者 距离 线性 时 间 的 目标 已 经 很 近 了 : B.Chazelle 在 1997 年 发 表 了 一 个 算法 ， 它 在 实际 应 用 中 和 线性 
时 间 的 算法 的 差距 已 经 小 到 了 无 法 区 别 的 程度 ( 尽管 可 以 证 明 它 并 不 是 线性 的 ) ， 但 它 非常 复杂 以 
至 于 无 法 实用 。 尽管 此 类 研究 得 到 的 算法 大 都 十 分 复杂 ， 其 中 一 些 的 简化 版 也 许可 以 进入 实际 应 用 。 
同时 ， 在 大 多 数 应 用 场景 中 ， 我 们 都 可 以 使 用 已 经 学 过 的 基本 方法 在 线性 时 间 内 得 到 图 的 最 小 生成 
树 ， 只 是 对 于 一 些 稀疏 图 所 需 的 时 间 要 乘 以 logy。 
总 的 来 说 ， 我 们 可 以 认为 在 实际 应 用 中 最 小 生成 树 问题 已 经 被 “解决 ”了 。 对 于 大 多 数 的 图 来 
说 ， 找 到 它 的 最 小 生成 树 的 成 本 只 比 遍历 图 的 所 有 边 稍 高 一 点 。 除 了 极为 稀疏 的 图 ， 这 一 点 都 能 成 
立 ， 但 即使 是 在 这 种 情况 下 ， 使 用 最 好 的 算法 所 能 得 到 的 性 能 提升 也 不 过 是 一 个 很 小 的 常数 因子 ， 
可 能 最 多 10 倍 。 人 们 已 经 在 许多 图 的 模型 中 证 明了 这 些 结论 ， 而 很 多 实践 者 则 已 经 使 用 Prim 算法 
[629] 和 Kruskal 算法 计算 大 型 图 中 的 最 小 生成 树 数 十 年 之 久 了 。 


图 答疑 


问 ”Prim 和 Kruskal 算法 能 够 处 理 有 问 图 吗 ? 
630| 答 不 行 , 不 可 能 。 那 是 一 个 更 加 困难 的 有 向 图 处 理 问题 ， 叫 做 最 小 树 形 图 问题 。 


图 练习 
4.3.1 证 明 可 以 将 图 中 的 所 有 边 的 权重 都 加 上 一 个 正常 数 或 是 都 乘 以 一 个 正常 数 ， 
图 的 最 小 生成 树 不 会 受到 影响 。 
4.3.2 画 出 图 4.3.16 中 的 所 有 最 小 生成 树 ( 所 有 边 的 权重 均 相 等 ) 。 
4.3.3 ”证 明 当 图 中 所 有 边 的 权重 均 不 相同 时 图 的 最 小 生成 树 是 唯一 的 。 
4.3.4 证 明 或 给 出 反例 : 仅 当 加 权 无 向 图 中 所 有 边 的 权重 均 不 相同 时 图 的 最 小 生成 
树 是 唯一 的 。 
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4.3.5 证 明 即使 存在 权重 相同 的 边 贪心 算法 仍然 有 效 。 
4.3.6 从 tinyEWG.txt 中 (请 见 图 4.3.1 ) 删 去 顶点 7 并 给 出 加 权 图 的 最 小 生成 树 。 
4.3.7 ”如 何 得 到 一 幅 加 权 图 的 最 大 生成 树 ? 
4.3.8 证 明 环 的 性 质 : 任 取 一 幅 加 权 图 中 的 一 个 环 ( 边 的 权重 各 不 相同 ) ， 环 中 权重 最 大 的 边 必然 不 属 
于 图 的 最 小 生成 树 。 
4.3.9 根据 Graph 中 的 构造 函数 ( 请 见 4.1.2.2 框 注 “Graph 数据 类 型 ”) 为 EdgeWeighted Graph 实现 
一 个 相应 构造 函数 ， 从 输入 流 中 读 取 一 幅 图 。 
4.3.10 ”为 稠密 图 实现 EdgeweightedGraph, 使 用 邻接 矩阵 ( 存储 权重 的 二 维 数组 ) , 不 允许 存在 平行 边 。 
4.3.11 使 用 1.4 节 中 的 内 存 使 用 模型 评估 用 EdgeweightedGraph 表示 一 幅 含 有 VV 个 顶点 和 EE 条 边 的 图 
所 需 的 内 存 。 
4.3.12 假设 加 权 图 中 的 所 有 边 的 权重 都 不 相同 ， 其 中 权重 最 小 的 边 一 定 属于 图 的 最 小 生成 树 吗 ? 权重 
最 大 的 边 可 能 属于 图 的 最 小 生成 树 吗 ”任意 环 中 的 权重 最 小 边 都 属于 图 的 最 小 生成 树 吗 ? 证 明 
你 的 每 个 回答 或 者 给 出 相应 的 反例 。 
4.3.13 给 出 一 个 反例 证 明 以 下 策略 不 一 定 能 够 找到 图 的 最 小 生成 树 : 首先 以 任意 项 点 作为 图 的 最 小 生 
成 树 ， 然 后 向 树 中 添加 天 1 条 边 ， 每 次 总 是 添加 依附 于 最 近 加 入 最 小 生成 树 的 顶点 的 所 有 边 中 
的 权重 最 小 者 。 
4.3.14 ”给 定 一 幅 加 权 图 G 以 及 它 的 最 小 生成 树 。 从 G 中 删 去 一 条 边 且 G 仍然 是 连通 的 ， 如 何在 与 成 
正比 的 时 间 内 找到 新 图 的 最 小 生成 树 。 
4.3.15 ”给 定 一 幅 加 权 图 G 以 及 它 的 最 小 生成 树 。 向 G 中 添加 一 条 边 e， 如 何在 与 天 成 正比 的 时 间 内 找 
到 新 图 的 最 小 生成 树 。 
4.3.16 ”给 定 一 幅 加 权 图 G 以 及 它 的 最 小 生成 树 。 向 G 中 添加 一 条 边 e， 编 写 一 段 程序 找到 e 的 权重 在 
什么 范围 之 内 才 会 被 加 入 最 小 生成 树 。 
4.3.17 为 EdgeWeightedGraph 类 实现 toString() 方法 。 
4.3.18 ”给 出 使 用 延 时 Prim 算法 、 即 时 Prim 算法 和 Kruskal 算法 在 计算 练习 4.3.6 中 的 图 的 最 小 生成 树 
过 程 中 的 轨迹 。 
4.3.19 假设 你 使 用 的 优先 队列 的 实现 会 维护 一 条 有 序 链表 。 在 最 坏 情 况 下 ， 用 Prim 算法 和 Kruskal 算 
法 处 理 一 幅 含 及 个 顶点 和 条 边 的 加 权 图 的 时 间 增 长 数量 级 是 多 少 ? 这 种 方法 适用 于 什么 情 
况 ? 证 明 你 的 结论 。 
4.3.20 真 假 判 断 : 在 Kruskal 算法 的 执行 过 程 中 ， 最 小 生成 树 中 的 每 个 顶点 到 它 的 子 树 中 的 某 个 顶点 的 
距离 比 到 非 子 树 中 的 任意 项 点 都 近 。 证 明 你 的 结论 。 
4.3.21 为 PrimMST 类 (请 见 算法 4.7 ) 实现 edges 0 方法 。 
解答 : 
public Iterable<Edge> edges() 
2 Bag<Edge> mst = new Bag<Edge>(); 
for (int v = 1; v < edgeTo.length; v++) 


mst.add(edgeTo[v]); 
return mst; 
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4.3.22 


4.3.23 


4.3.24 


4.3.25 


4.3.26 


4.3.27 


4.3.28 


4.3.29 


4.3.30 


4.3.31 


4.3.32 


4.3.33 


最 小 生成 森林 。 开 发 新 版 本 的 Prim 算法 和 Kruskal 算法 来 计算 一 幅 加 权 图 的 最 小 生成 森林 ， 图 
不 一 定 是 连通 的 。 使 用 4.1 节 中 连通 分 量 的 API 并 找到 每 个 连通 分 量 的 最 小 生成 树 。 

Vyssotsky 算法 。 开 发 一 种 不 断 使 用 环 的 性 质 〈 请 见 练习 4.3.8 ) 来 计算 最 小 生成 树 的 算法 : 每 次 
将 一 条 边 添加 到 假设 的 最 小 生成 树 中 ， 如 果 形 成 了 一 个 环 则 删 去 环 中 权重 最 大 的 边 。 注 意 : 这 
个 算法 不 如 我 们 学 过 的 几 种 方法 引 人 注 意 ， 因 为 很 难 找到 一 种 数据 结构 能 够 有 效 支 持 “删除 环 
中 权重 最 大 的 边 ”的 操作 。 

逆向 删除 算法 。 实 现 以 下 计算 最 小 生成 树 的 算法 : 开始 时 图 含有 原 图 的 所 有 边 ， 然 后 按照 权重 
大 小 的 降序 排列 遍历 所 有 的 边 。 对 于 每 条 边 ， 如 果 删 除 它 图 仍然 是 连通 的 ， 那 就 删 掉 它 。 证 明 
这 种 方法 可 以 得 到 图 的 最 小 生成 树 。 实 现 中 加 权 边 的 比较 次 数 增长 的 数量 级 是 多 少 ? 

最 坏 情 况 生成 器 。 开 发 一 个 加 权 图 生成 器 ， 图 中 含有 了 个 顶点 和 条 边 ， 使 得 延 时 的 Prim 算法 
所 需 的 运行 时 间 是 非 线 性 的 。 对 于 即时 的 Prim 算法 回答 相同 的 问题 。 

关键 边 。 关 键 边 指 的 是 图 的 最 小 生成 树 中 的 某 一 条 边 ， 如 果 删 除 它 ， 新 图 的 最 小 生成 树 的 总 权重 
将 会 大 于 原 最 小 生成 树 的 总 权重 。 找 到 在 有 ogE 时 间 内 找 出 图 的 关键 边 的 算法 。 注 意 : 这 个 问题 
中 边 的 权重 并 不 一 定 各 不 相同 ( 否则 最 小 生成 树 中 的 所 有 边 都 是 关键 边 ) 。 

动画 。 编 写 一 段 程序 将 最 小 生成 树 算法 用 动画 表现 出 来 。 用 程序 处 理 mediumEWG.txt 来 产生 类 
似 于 图 4.3.12 和 图 4.3.14 的 示意 图 。 

空间 最 优 的 数据 结构 。 实 现 另 一 个 版 本 的 延 时 Prim 算法 ， 在 EdgeweightedGraph 和 MinPQ 中 
使 用 低级 数据 结构 代替 Bag 和 Edge 来 节省 空间 。 根 据 1.4 节 中 的 内 存 使 用 模型 用 一 个 VV 和 的 
函数 评估 节省 的 内 存 总 量 ( 参考 练习 4.3.11 ) 。 

稠密 图 。 实 现 男 一 个 版 本 的 Prim 算法 ， 即 时 (但 不 使 用 优先 队列 ) 且 能 够 在 天 次 加 权 边 比较 之 
内 得 到 最 小 生成 树 。 

欧 拉 加 权 图 。 修改 你 为 练习 41.37 给 出 的 解答 ,为 平面 图 创建 一 份 API—Euclidean 
EdgeweightedGraph， 这 样 你 就 能 够 处 理 用 图 形 表示 的 图 了 。 

最 小 生成 树 的 权重 。 为 LazyPrimMST、PrimMST 和 KruskalMST 实现 weight0) 方法 ， 使 用 延 时 
策略 ， 只 在 被 调用 时 才 遍 历 最 小 生成 树 的 所 有 边 来 计算 总 权重 。 然 后 用 即时 策略 再 次 实现 这 个 
方法 ， 在 计算 最 小 生成 树 的 过 程 中 维护 一 个 动态 的 总 权重 。 

指定 的 集合 。 给 定 一 幅 连 通 的 加 权 图 G 和 一 个 边 的 集合 S (不 含 环 ) ,给 出 一 种 算法 得 到 含有 5 
中 的 所 有 边 的 最 小 加 权 生 成 树 。 

验证 。 编 写 一 个 使 用 最 小 生成 树 算法 以 及 EdgeweightedGraph 类 的 方法 check(C) ， 使 用 以 下 根 
据 命题 J 得 到 的 最 优 切 分 条 件 来 验证 给 定 的 一 组 边 就 是 一 棵 最 小 生成 树 : 如 果 给 定 的 一 组 边 是 一 
棵 最 小 生成 树 ， 且 删除 树 中 的 任意 边 得 到 的 切 分 中 权重 最 小 的 柳 切 边 正 是 被 删除 的 那 条 边 ， 则 
这 最 小 生成 一 组 边 就 是 图 的 最 小 生成 树 。 你 的 方法 的 运行 时 间 的 增长 数量 级 是 多 少 ? 


图 实验 十 
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随机 稀 芍 加 权 图 。 基 于 你 为 练习 4.1.41 给 出 的 解答 编写 一 个 随机 稀疏 加 权 图 生成 器 。 在 赋予 边 
的 权重 时 , 定义 一 个 随机 加 权 有 向 图 的 抽象 数据 结构 并 给 出 两 种 实现 : 一 种 按 均 匀 分 布 生成 权重 ， 
另 一 种 按 高 斯 分 布 生成 权重 。 编 写 用 例 程序 ， 用 两 种 权重 分 布 和 一 组 精心 挑选 过 的 天 和 巨 的 值 


4.3 最 小 生成 树 二 411 


生成 随机 的 稀 朴 加 权 图 ， 使 得 我 们 可 以 用 它 对 权重 的 各 种 分 布 进行 有 意义 的 经 验 性 测试 。 

4.3.35 ”随机 欧 拉 加 权 图 。 修 改 你 为 练习 4.1.42 给 出 的 解答 ， 将 每 条 边 的 权重 设 为 顶点 之 间 的 距离 。 

4.3.36 ”随机 网 格 加 权 图 。 修 改 你 为 练习 4.1.43 给 出 的 解答 ， 将 每 条 边 的 权重 设 为 0 到 1 之 间 的 随机 值 。 

4.3.37 真实 世界 中 的 加 权 图 。 从 网 上 找 出 一 幅 巨 型 加 权 无 向 图 一 一 可 以 是 标注 了 距离 的 地 图 ， 或 是 标 
明了 资费 的 电话 黄页 ， 或 是 航线 的 价目 表 。 编 写 一 段 程序 RandomRealEdgeWeightedGraph， 从 
这 些 顶 点 构成 的 子 图 中 随机 选取 VV 个 顶点 ， 然 后 再 从 这 些 顶 点 构成 的 子 图 中 随机 选取 条 边 来 
构造 一 幅 图 。 
测试 所 有 的 算法 并 研究 所 有 图 的 模型 的 所 有 参数 是 不 现实 的 。 请 为 下 面 的 每 一 道 题 都 编写 一 段 
程序 来 处 理 从 输入 得 到 的 任意 图 。 这 段 程序 可 以 调用 上 面 的 任意 生成 器 并 对 相应 的 图 模型 进行 
实验 。 你 可 以 根据 上 次 实验 的 结果 自己 作出 判断 来 选择 不 同 实验 。 陈 述 结 果 以 及 由 此 得 出 的 任 
何 结论 。 

4.3.38” 延 时 的 代价 。 对 于 各 种 图 的 模型 ， 运 行 实验 并 根据 经 验 比较 Prim 算法 的 延 时 版 本 和 即时 版 本 的 

4.3.39 对比 Prim 算法 与 Kruskal 算法 。 运 行 实验 并 根据 经 验 比 较 Prim 算法 的 延 时 版 本 和 即时 版 本 与 
Kruskal 算法 的 性 能 差异 。 

4.3.40 减少 开销 。 运 行 实验 并 根据 经 验 判 断 练 习 4.3.28 中 在 EdgeWeightedGraph 类 中 使 用 原始 数据 类 
型 代替 Edge 所 带 来 的 效果 。 635 

4.3.41 最 小 生成 树 中 的 最 长 边 。 运 行 实验 并 根据 经 验 分 析 最 小 生成 树 中 最 长 边 的 长 度 以 及 图 中 不 长 于 
该 边 的 边 的 总 数 。 

4.3.42 切 分 。 根 据 快 速 排序 的 切 分 思想 〈 而 非 使 用 优先 队列 ) 实现 一 种 新 方法 ， 检 查 Kruskal 算法 中 的 
当前 边 是 否 属于 最 小 生成 树 。 

4.3.43 ”Boruvka 算法 。 实 现 Boruvka 算法 : 和 Kruskal 算法 类 似 ， 只 是 分 阶段 地 向 一 组 森林 中 逐渐 添加 
边 来 构造 一 棵 最 小 生成 树 。 在 每 个 阶段 中 ， 找 出 所 有 连接 两 棵 不 同 的 树 的 权重 最 小 的 边 ， 并 将 
它们 全 部 加 入 最 小 生成 树 。 为 了 避免 出 现 环 ， 假 设 所 有 边 的 权重 均 不 相同 。 提 示 : 维护 一 个 由 
顶点 索引 的 数组 来 辨别 连接 每 棵 树 和 它 最近 的 邻居 的 边 。 记 得 用 上 union-find 数据 结构 。 

4.3.44 改进 的 Boruvka 算法 。 给 出 Boruvka 算法 的 另 一 种 实现 , 用 双向 环形 链表 表示 最 小 生成 树 的 子 树 ， 
使 得 子 树 可 以 被 合并 或 改名 ， 每 个 阶段 所 需 的 时 间 与 五 成 正比 (这样 就 不 需要 union-find 数据 结 
构 了 ) 。 

4.3.45 ”外 部 最 小 生成 树 。 如 果 一 幅 图 非常 大 ， 内 存 最 多 只 能 存储 信条 边 ， 如 何 计算 它 的 最 小 生成 树 ? 

4.3.46 ”Johnson 算法 。 使 用 一 个 4 向 堆 实 现 优先 队列 (请 见 练习 2.4.41 ) 。 对 于 各 种 图 的 模型 ， 找 到 4 
的 最 优 值 。 636 
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4.4 ”最 短路 径 


也 许 最 直观 的 图 处 理 问 题 就 是 你 常常 需要 使 用 某 种 地 图 软件 或 者 导航 系统 来 获取 从 一 个 地 方 到 
达 另 一 个 地 方 的 路 径 。 我 们 立即 可 以 得 到 与 之 对 应 的 图 模型 : 顶点 对 应 交叉 路 口 ， 边 对 应 公路 ， 边 
的 权重 对 应 经 过 该 路 段 的 成 本 ， 可 以 是 时 间或 者 距离 。 如 果 有 单行 线 ， 那 就 意味 着 还 需要 考虑 加 权 
有 向 图 。 在 这 个 模型 中 ， 问 题 很 容易 就 可 以 被 归纳 为 : 

找到 从 一 个 项 点 到 达 另 一 个 顶点 的 成 本 最 小 的 路 径 。 

除了 这 类 问题 的 直接 应 用 ， 最 短路 径 模型 还 适用 于 一 系列 其 他 问题 ( 请 见 表 4.4.1 ) ， 其 中 有 一 
些 看 起 来 似乎 和 图 的 处 理 训 无 关系 。 举 个 例子 ， 我 们 会 在 本 节 的 最 后 考虑 金融 学 领域 的 套 汇 问题 。 


表 4.4.1 最 短路 径 的 典型 应 用 





应 ”用 顶 点 边 
地 图 交叉 路 口 公路 
网 络 路 由 器 网 络 连接 
任务 调度 任务 优先 级 限制 
套 汇 货币 汇率 


我 们 采用 了 一 个 一 般 性 的 模型 ， 即 加 权 有 向 图 ( 它 是 4.2 节 和 4.3 节 的 模型 的 结合 ) 。 在 4.2 
节 中 我 们 希望 知道 从 一 个 顶点 是 否 可 以 到 达 男 一 个 顶点 。 在 本 节 中 ， 我 们 会 把 权重 考虑 进来 ， 
就 像 在 4.3 节 中 研究 的 加 权 无 向 图 那样 。 在 加 权 有 向 图 中 ,每 条 有 向 路 径 都 有 一 个 与 之 关联 的 
路 径 权 重 ， 它 是 路 径 中 的 所 有 边 的 权重 之 和 。 这 种 重要 的 度量 方式 使 得 我 们 能 够 将 这 个 问题 归 
纳 为 “找到 从 一 个 顶点 到 达 另 一 个 顶点 的 权重 最 小 的 有 向 路 径 ”， 也 就 是 本 节 的 主题 。 图 4.4.1 
就 是 一 个 示例 。 


加 权 有 向 图 
定义 。 在 一 幅 加 权 有 向 图 中 ， 从 顶点 s 到 顶点 七 的 4->5 0.35 
最 短路 径 是 所 有 从 s 到 t 的 路 径 中 的 权重 最 小 者 。 1 0 
5->7 0.28 (<—0) 
本 节 中 ， 我 们 将 会 学 习 解 决 下 面 这 个 问题 的 经 典 。 ”$223 0.33 
算法 。 人 ee 
单 点 最 短路 径 。 给 定 一 幅 加 权 有 向 图 和 一 个 起 点 s， 7->3 0.39 人 
回答 “从 s 到 给 定 的 目的 顶点 v 是 否 存在 一 条 有 向 路 0 0->2 0.26 
径 ? 如 果 有 ， 找 出 最 短 ( 总 权重 最 小 ) 的 那 条 路 径 。” “6->2 0.40 723 0.39 
等 类 似 问 题 。 GD oe 3->6 0.52 


6->4 0.93 


我 们 计划 在 本 节 中 讨论 下 列 问 题 : 

口 加 权 有 向 图 的 API 和 实现 以 及 单 点 最 短路 径 的 图 4.4.1 一 幅 加 权 有 向 图 和 其 中 的 一 条 
API; 最 短路 径 

口 解决 边 的 权重 非 负 的 最 短路 径 问 题 的 经 典 Dijkstra 算法 ; 

口 在 无 环 加 权 有 向 图 中 解决 该 问题 的 一 种 快速 算法 ， 边 的 权重 甚至 可 以 是 负 值 ; 

口 适用 于 一 般 情 况 的 经 典 Bellman-Ford 算法 ， 其 中 图 可 以 含有 环 ， 边 的 权重 也 可 以 是 负 值 。 
我 们 还 需要 算法 来 找 出 负 权 重 的 环 ， 以 及 不 含有 这 种 环 的 加 权 有 向 图 中 的 最 短路 径 。 

在 学 习 了 这 些 算 法 之 后 ， 我 们 还 会 考虑 它们 的 应 用 。 
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4.4.1 最 短路 径 的 性 质 
最 短路 径 问 题 的 基本 定义 是 很 简单 的 ， 但 这 种 简洁 也 隐藏 了 一 些 在 学 习 相 关 的 算法 和 数据 结构 
之 前 需要 解决 的 问题 。 
口 路 径 是 有 向 的 。 最 短路 径 需 要 考虑 到 各 条 边 的 方向 。 
口 权重 不 一 定 等 价 于 距离 。 几 何 上 的 直觉 可 以 帮 未 
助 你 理解 算法 ， 因 此 示例 中 的 顶点 都 在 平面 上 
且 权重 为 顶点 之 间 的 欧 拉 距离 ， 例 如 图 4.4.1 所 
示 的 那 幅 有 向 图 。 但 权重 也 可 以 表示 时 间 、 花 
费 或 是 某 种 完全 无 关 的 东西 ， 也 不 一 定 会 和 距 
离 的 远近 成 正比 。 我 们 使 用 了 双关 性 的 术语 来 
强调 这 一 点 , 指 的 是 权重 或 是 成 本 最 短 的 路 径 。 
口 并 不 是 所 有 顶点 都 是 可 达 的 。 如 果 t 上 并 不 是 从 
s 可 达 的 ， 那么 就 不 存在 任何 路 径 ， 也 就 不 存 
在 s 到 t 的 最 短路 径 。 为 了 简化 问题 ， 我 们 的 
样 图 都 是 强 连 通 的 〈 每 个 顶点 从 另外 任意 一 个 
顶点 都 是 可 达 的 ) 。 
口 负 权 重 会 使 问题 更 复杂 。 我 们 暂时 假设 边 的 权 
重 都 是 正 的 (或 零 ) 。 负 权重 所 带 来 的 意外 效 
应 是 本 节 最 后 部 分 的 重点 。 
口 最 短路 径 一 般 都 是 简单 的 。 我 们 的 算法 会 忽略 
构成 环 的 零 权 重 边 ， 因 此 找到 的 最 短路 径 都 不 
会 含有 环 。 
口 最 短路 径 不 一 定 是 唯一 的 。 从 一 个 顶点 到 达 另 
一 个 顶点 的 权重 最 小 的 路 径 可 能 有 多 条 ， 我 们 
只 要 找到 其 中 一 条 即 可 。 
口 可 能 存在 平行 边 和 自 环 : 平行 边 中 的 权重 最 小 
者 才 会 被 选中 ,最 短路 径 也 不 可 能 包含 自 环 ( 除 
非 自 环 的 权重 为 零 ， 但 我 们 会 忽略 它 ) 。 在 正 
文中 ,为 了 避免 歧义 我 们 隐 式 地 假设 平行 边 不 
存在 ， 用 v 一 w 来 表示 从 v 到 w 的 边 ， 本 节 的 
代码 处 理 它们 并 没有 困难 。 
最 短路 径 树 
我 们 的 重点 是 单 点 最 短路 径 问 题 ， 其 中 给 出 了 起 
点 5s， 计算 的 结果 是 一 棵 最 短路 径 树 (SPT)， 它 包含 了 
顶点 s 到 所 有 可 达 的 顶点 的 最 短路 径 。 如 图 4.4.2 所 示 。 
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定义 。 给 定 一 幅 加 权 有 向 图 和 一 个 顶点 5， 以 s 为 
起 所 的 一 柠 最 短路 径 树 是 图 的 一 幅 子 图 ， 它 包含 s 
和 从 s 可 达 的 所 有 顶点 。 这 棵 有 向 树 的 根 结 点 为 s， 
树 的 每 条 路 径 都 是 有 向 图 中 的 一 条 最 短路 径 。 
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图 4.4.2 最 短路 径 树 ( 另 见 彩 插 ) 
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这 样 一 棵 树 是 一 定 存在 的 : 一 般 来 说 ， 从 s 到 一 个 顶点 有 可 能 存 
在 两 条 长 度 相 等 的 路 径 。 如 果 出 现 这 种 情况 ， 可 以 删除 其 中 一 条 路 径 
的 最 后 一 条 边 。 如 此 这 般 ， 直 到 从 起 点 到 每 个 顶点 都 具有 一 条 路 径 相 
连 ( 即 一 棵 树 ， 请 见 图 4.4.3 ) 。 通 过 构造 这 棵 最 短路 径 树 ， 可 以 为 用 例 
提供 从 s 到 图 中 任何 项 点 的 最 短路 径 ， 表 示 方 法 为 一 组 指向 父 结 点 的 链 
接 ， 和 4.1 节 中 表示 路 径 的 方法 完全 一 样 。 


637| 4.4.2 ”加权 有 向 图 的 数据 结构 

8 加 权 有 向 图 的 数据 结构 比 加 权 无 向 图 的 数据 结构 更 加 简单 ， 因 为 有 
向 边 只 有 一 个 方向 。 与 Edge 类 中 的 either() 和 otherg) 方法 不 同 ， 这 
里 定义 了 from() 和 to0Q 方法 ， 请 见 表 4.4.2。 


表 4.4.2 加权 有 向 边 的 API 
public class DirectedEdge 
DirectedEdge(int v, int w, double weight) 
double weight() 
int fromO) 
int to() 


String toString() 


从 4.1 节 到 4.3 节 ， 从 Graph 类 过 渡 到 了 EdgeWeightedGraph 类 。. 


从 起 点 指出 的 边 





图 4.4.3 一 棵 含有 250 
个 顶点 的 最 短 
路 径 树 


边 的 权重 
指出 这 条 边 的 顶点 
这 条 边 指向 的 顶点 
对 象 的 字符 申 表示 


与 以 前 一 样 ， 我 们 在 这 里 添 


加 了 edges 0) 方法 并 使 用 DirectedEdge 类 代替 了 整 型 变量 ， 请 见 表 4.4.3。 


表 4.4.3 加权 有 向 图 的 API 


public class EdgeWeightedDigraph 





EdgewWeightedDigraph(Cint V) 
EdgeWeightedDigraph(In in) 
int VO 
Tnt, EC 
void addEdge(DirectedEdge e) 
Iterable<DirectedEdge> adj(int v) 
Iterable<DirectedEdge> edges() 


String toString() 


含有 V 个 顶点 的 空 有 向 图 

从 输入 流 中 读 取 图 的 构造 函数 
顶点 总 数 

边 的 总 数 

将 e 添加 到 该 有 向 图 中 

从 v 指出 的 边 

该 有 向 图 中 的 所 有 边 

对 象 的 字符 串 表示 


这 两 份 API 的 实现 请 见 后 面 的 框 注 “加 权 有 向 边 的 数据 结构 ”和 “加 权 有 向 图 的 数据 结构 ”。 
它们 很 自然 地 扩展 了 4.2 节 和 4.3 节 中 相应 的 类 的 实现 。Digraph 类 中 的 邻接 表 使 用 的 是 整数 ， 在 
EdgeweightedDigraph 的 邻接 表 中 使 用 的 是 WeightedEdge 对 象 。 与 从 4.1 节 到 4.2 节 中 Graph 类 
到 Digraph 类 的 转换 一 样 ， 从 4.3 节 的 EdgeWeightedGraph 类 到 本 节 中 的 EdgeweightedDigraph 


类 的 转换 代码 也 变 得 简单 了 ， 因 为 在 数据 结构 中 每 条 边 只 会 出 现 一 次 。 


加 权 有 向 边 的 数据 类 型 


public class DirectedEdge 
兴 
private final int v; 
private final int w; 
private final double weight; 
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// 边 的 起 点 
// 边 的 终点 
// 边 的 权重 


public DirectedEdge(int v, int w, double weight) 


下 
this.v = V; 
this.w = w; 
this.weight = weight; 


public double weight() 
{ return weight; } 


public int from() 
{ return v; } 


public int to() 
{ return w; } 


public String toString() 


{ return String.format("%d->%d %.2f", v, w, weight); } 


} 


DirectedEdge 类 的 实现 比 4.3 节 中 无 向 边 的 数据 类 型 Edge 类 ( 请 见 4.3.2 节 框 注 “ 带 权重 的 边 的 
数据 类 型 ”) 更 简单 ， 因 为 边 的 两 个 端点 是 有 区 别 的 。 用 例 可 以 使 用 惯用 代码 int v=e.to()，w=e. 


from(); 来 访问 DirectedEdge 的 两 个 端点 。 





加 权 有 向 图 的 数据 类 型 





public class EdgeWeightedDigraph 
. 
Ek 

private final 
private int Es; 
private Bag<DirectedEdge>l] adi; 


int Ys 


public EdgeweightedDigraph Cint V) 


// 顶点 总 数 
// 边 的 总 数 
// 邻接 表 


Bag[Yvi; 


{ 
Ch. ss Me 
hs.E = 0s 
adj = (Bag<DirectedEdye>[]) new 
for Cint v 0; Vv < VY; VvV++) 
adjfvj = new Bag<DirectedEdge>(); 
} 


public EdgeWeightedDigraph(in in) 


/7 请 见 统 4 .4,2 
public int VO { return VY; 
public int EQ { return E; 3} 


public void addEdge (Directedt dge e) 
r 
adj[e.from()].add(e); 
Et 
} 
dge> 


public Iterable<Edg adiCint v) 


retorn adilvj; ? 








bublic Iterable<DirectedEdge> edges() 
f 
“DirectedEdge> bag = new Bag<DirectedEdge>€):; 
(inE Vv = 0O: YY < YI vi+) 
for 《DirectedEage 8 : adijlv]) 
bag.add(e); 


return bag: 


} 

EdgeWeightedDigraph 类 的 实现 混合 了 EdgeWeightedGraph 类 和 Digraph 类 。 它 维护 了 一 个 由 顶 
点 索引 的 Bag 对 象 的 数组 ，Bag 对 象 的 内 容 为 DirectedEdge 对 象 。 与 Digraph 类 一 样 ， 每 条 边 在 邻接 
表 中 只 会 出 现 一 次 : 如 果 一 条 边 从 v 指向 w， 那 么 它 只 会 出 现在 v 的 邻接 链表 中 。 这 个 类 可 以 处 理 自 环 
和 平行 边 。toString( 方法 的 实现 留 作 练习 4.4.2。 





图 4.4.4 所 示 的 是 用 EdgeWeightedDigraph 表示 左 侧 的 加 权 有 向 图 时 所 构造 的 数据 结构 ， 在 构造 
的 过 程 中 边 被 按照 顺序 一 条 一 条 地 加 入 图 中 。 与 以 前 一 样 ， 我 们 使 用 了 Bag 类 来 表示 邻接 表 并 在 图 中 
按照 标准 方式 将 它们 表示 为 链表 ,与 4.2 节 中 普通 的 有 向 图 一 样 ,每 条 边 在 数据 结构 中 都 只 出 现 了 一 次 。 


tinyEWD. txt 
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6 0 0.58 ~[el4l.93} [eTol.s8} [T2140 
64 0.93 
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图 4.4.4 加 权 有 向 图 的 表示 





4.4.2.1 最 短路 径 的 API 
对 于 最 短路 径 的 API, 我 们 的 设计 思路 与 4.1 节 中 的 DepthFirstPaths 和 BreadthFirstPaths 
的 API 是 一 样 的 。 算 法 将 会 实现 表 4.4.4 所 示 的 API 来 为 用 例 提 供 图 中 的 最 短路 径 和 其 长 度 。 


表 4.4.4 ”最短 路径 的 API 





public class SP 
SP(EdgeWeightedDigraph G, int s) 构造 晴 数 


double distTo(Cint v) 从 顶点 s 到 v 的 距离 ， 如 果 不 存 在 
则 路 径 为 无 穷 大 
boolean hasPathTo(Cint v) 是 否 存在 从 顶点 s 到 v 的 路 径 
Iterable<Direc-tedEdge> pathToCint v) 从 顶点 s 到 v 的 路 径 ， 如 果 不 存 在 


则 为 nu11 





构造 函数 会 创建 最 短路 径 树 
并 计算 最 短路 径 的 长 度 ， 其 他 查 
询 方法 则 会 使 用 这 些 数据 结构 为 
用 例 提供 路 径 的 长 度 以 及 路 径 的 
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public static void main(String[] args) 
EdgeWeightedDigraph G; 
G = new EdgeWeightedDigraph(new In(args[0])); 
int s = Integer.parseInt(args[1]); 


Iterable 对 象 。 SP 


4.4.2.2 ”测试 用 例 

右 侧 框 注 是 一 个 简单 测试 用 
例 。 它 接受 一 个 输入 流 和 一 个 起 
点 作为 命令 行 参数 ， 从 输入 流 中 


{ 


sp = new SP(G, s); 


for Cinti tis. 0 tt.< GVO tps) 


StdOut.print(s + ”to " 

StdOut.printf(" (%4.2f) : 

if (sp.hasPathTo(Ct)) 
for (DirectedEdge e : 


+ t); 
", Sp.distTo(t)); 


sp.pathTo(t)) 


读 取 加 权 有 向 图 ， 根 据 起 点 来 计 ‘ Te 和 
算 有 向 图 的 最 短路 径 树 并 打印 从 Pe tee 
起 点 到 其 他 所 有 项 点 的 最 短路 径 。 } 
我 们 约定 ， 所 有 的 最 短路 径 实现 i java 区 人 0 
Si pe to 0 (0.00): 
都 使 用 该 测试 用 例 进行 测试 。 在 0 to 1 (1.05): 0->4 0.38 4->5 0.35 5->1 0.32 
下 面 的 框 注 中 使 用 了 tinyEWD.txt 0 to 2 (0.26): 0->2 0.26 
Pe | 0 to 3 (0.99): 0->2 0.26 2->7 0.34 7->3 0.39 
文件 ， 它 定义 了 一 幅 较 小 的 样 图 。 o to 4 (0.38): 0->4 0.38 
中 所 有 的 边 和 权重 ， 会 用 来 显示 0 to 5 (0.73): 0->4 0.38 4->5 0.35 
cop lL。 a 0 to 6 (1.51): 0->2 0.26 2->7 0.34 7->3 0.39 3->6 
最 短路 径 算 法 的 详细 轨迹 。 它 的 0 5> a 
文件 格式 与 最 小 生成 树 算法 中 使 0 to 7 (0.60): 0->2 0.26 2->7 0.34 ， 
用 的 样 图 相同 : 首先 是 顶点 总 数 Wi 人 5 
和 边 的 总 数 ， 随 后 是 行 数据 ， Se 
每 一 行为 两 个 顶点 的 索引 和 一 个 权重 。 在 本 书 的 网 站 上 ， 你 可 以 找到 一 些 定义 了 更 大 的 加 权 有 向 图 


的 文件 ， 包 括 mediumEWG.txt。 它 定义 了 一 幅 含 有 250 个 顶点 的 加 权 有 向 图 ， 如 图 4.4.3 所 示 。 在 
这 幅 图 的 图 像 中 ， 每 一 行 数据 都 表示 方向 相反 的 两 条 边 ， 因 此 这 个 文件 所 含有 的 边 数 是 在 学 习 最 小 
生成 树 时 所 使 用 的 mediumEWG.txt 的 2 倍 。 在 最 短路 径 树 的 图 像 中 ， 每 一 行 都 表示 一 条 从 顶点 指 


出 的 有 向 边 。 
4.4.2.3 ”最 短路 径 的 数据 结构 
表示 最 短路 径 所 需 的 数据 结构 很 简单 ， 如 
图 4.4.5 所 示 。 
口 最 短路 径 树 中 的 边 。 和 深度 优先 搜索 、 
广度 优先 搜索 和 Prim 算法 一 样 ， 使 用 一 
个 由 顶点 索引 的 DirectedEdge 对 象 的 
父 链接 数组 edgeTo[] ， 其 中 edgeTo[v] 
的 值 为 树 中 连接 v 和 它 的 父 结 点 的 边 ( 也 
是 从 s 到 v 的 最 短路 径 上 的 最 后 一 条 边 ) 


edgeTo[] distTo[] 
null 0 
5->1 
0->2 
7->3 
0->4 
4->5 
3->6 
2->7 


图 4.4.5 最短 路径 的 数据 结构 


G 人 
| © 
@) @ 


“om 上 whh 姜 口 


1.05 
0.26 
0.97 
0.38 
0.73 
1.49 
0.60 


[2] 


口 到 达 起 点 的 距离 。 我 们 需要 一 个 由 顶点 索引 的 数组 distTo[] ， 其 中 distTo[v] 为 从 s 到 v 


的 已 知 最 短路 径 的 长 度 。 


我 们 约定 ，edgeTo[s] 的 值 为 nu11，distTo[s] 的 值 为 0。 同时 还 约定 ， 从 起 点 到 不 可 达 的 


顶点 的 距离 均 为 Double.POSITIVE_INFINITY。 
类 型 并 支持 用 例 调用 方法 来 查询 最 短路 径 和 它们 


和 以 前 一 样 ， 我们 会 实现 使 用 这 些 数据 结构 的 数据 
的 长 度 。 


418 党 第 4 章 图 


4.4.2.4 边 的 松弛 L 2 ， 
让 private void relax(DirectedEdge e) 
我 们 的 最 短路 径 API 的 实现 都 基于 { 


i 为 松 操作 。 int v = e.from(), w = e.to(); 
0 | 0 hh YE diestToE >.disttolv] seuweighkG7 
ee 晤 八 但 革 1 { 
重 ，distTo[r] 中 只 有 起 点 所 对 应 的 元 素 I = distTo[v] + e.weight(); 
Ct edgeTo[w] = e; 
的 值 为 0， 其 余 元 素 的 值 均 被 初始 化 为 
Double.POSITIVE_INFINITY。 随 着 算 } 


法 的 执行 ， 它 将 起 点 到 其 他 顶点 的 最 短 

路 径 信息 存 人 了 edgeTo[] 和 distTo[] 

数组 中 。 在 遇 到 新 的 边 时 ， 通 过 更 新 这 些 信息 就 可 以 得 到 新 的 最 短路 径 。 特 别 是 ， 我 们 在 其 中 会 用 

到 边 的 松弛 技术 ， 定 义 如 下 : 放松 边 v 一 w 意味 着 检查 从 s 到 w 的 最 短路 径 是 否 是 先 从 s 到 v， 然 

后 再 由 v 到 w。 如 果 是 ， 则 根据 这 个 情况 更 新 数据 结构 的 内 容 。 上 边框 注 中 的 代码 实现 了 这 个 操作 。 
646| ”由 v 到 达 w 的 最 短路 径 是 distTo[v] 与 e.weight() 之 和 一 一 如 果 这 个 值 不 小 于 distTo[w] ， 称 这 

条 边 失效 了 并 将 它 忽 略 ; 如 果 这 个 值 更 小 ， 就 更 新 数据 。 

图 4.4.6 显示 的 是 边 的 放松 操作 之 后 可 能 出 现 的 两 种 情况 。 一 种 情况 是 边 失 效 ( 左边 的 例子 ) ,不 

更 新 任何 数据 ; 男 一 种 情况 是 v 一 w 就 是 到 达 w 的 最 短路 径 〈 右边 的 例子 ) ， 这 将 会 更 新 edgeTo[w] 

和 distTo[w] (这 可 能 会 使 另 一 些 边 失 效 ， 但 也 可 能 产生 一 些 新 的 有 效 边 ) 。 松 弛 这 个 术语 来 自 于 用 

一 根 橡皮 筋 沿 着 连接 两 个 顶点 的 路 径 紧 紧 展开 的 比喻 ， 放松 一 条 边 就 类 似 于 将 橡皮 筋 转移 到 一 条 更 短 

的 路 径 上 ， 从 而 缓解 了 橡皮 筋 的 压力 。 如 果 relaxO 〇 改变 了 和 边 e 相关 的 项 点 的 distTo[e.toQO] 和 

edgeTo[e.to()] 的 值 ， 就 称 e 的 放松 是 成 功 的 。 


边 的 松弛 


W_ 员 拓 将 distTo[v] 


es 他 “mw 的 权重 为 1.3 es 
2 O—-O——~® 六 


在 edgeTo[] 


i 了 从 7.2 
中 的 时 & 过 。 OO distTo[w] 


O—O— >~® 


1 了 的 4.4 
OG 问 | 下 、 不 再 存放 于 最 


短路 径 树 中 


Vv 一 W 是 有 效 的 


647 图 4.4.6 边 的 松弛 的 两 种 情况 ( 另 见 彩 插 ) 


4.4.2.5 ”顶点 的 松弛 

实际 上 ， 实 现 会 放松 从 一 个 给 定 项 点 指出 的 所 有 边 ， 如 下 页 框 注 中 (被 重 载 的 ) relax( 的 实 
现 所 示 。 注 意 ， 从 任意 distTo[v] 为 有 限 值 的 顶点 v 指向 任意 distT[] 为 无 穷 的 顶点 的 边 都 是 有 
效 的 。 如 果 v 被 放松 ， 那 么 这 些 有 效 边 都 会 被 添加 到 edgeTo[] 中 。 某 条 从 超 点 指出 的 边 将 会 是 第 
一 条 被 加 入 edgeTo[] 中 的 边 。 算 法 会 谨慎 选择 顶点 ， 使 得 每 次 顶点 松弛 操作 都 能 得 出 到 达 某 个 顶 
点 的 更 短 的 路 径 ， 最 后 逐渐 找 出 到 达 每 个 顶点 的 最 短路 径 。 如 图 4.4.7 所 示 。 
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private void relax(EdgeWeightedDigraph G, int v) CA O 
{ 
for (DirectedEdge e : G.adj(v)) oe TN 
{ 人 
int w = e.to(); Cy 
if (distTo[w] > distTo[v] + e.weight()) O 
是 
distTo[w] = distTo[v] + e.weight(); me O 
edgeTo[w] = e; 仍然 无 效 
} 
} 
} 
网罗 失效 
顶点 的 松弛 
图 4.4.7 顶点 的 松弛 648 


4.4.2.6 ”为 用 例 准备 的 查询 方法 

与 4.1 节 (以 及 练习 4.1.13 ) 中 实现 路 径 查 找 的 API 相似 ，edgeTo[] 和 distTo[] 数组 直接 支 
持 pathTo()、hasPathTo() 和 distTo() 查询 方法 ， 如 下 方 框 注 所 示 。 默 认 所 有 最 短路 径 的 实现 
都 包含 这 段 代码 。 前 面 已 经 提 到 过 ， 只 有 在 v 是 从 s 可 达 的 情况 下 ，distTo[v] 才 是 有 意义 的 ， 





还 已 经 约定 ， 对 于 从 s 不 可 达 的 顶点 ，distTo() 方法 都 应 该 返回 无 穷 大 。 在 实现 这 个 约定 时 ， 将 
distTo[] 中 的 所 有 元 素 都 初始 化 为 Double.POSITIVE_ v edgeTo[] 
INFINITY, distTo[s] 则 为 0。 最 短路 径 算法 会 将 从 起 点 er pn 
可 达 的 顶点 v 的 distTo[v] 设 为 一 个 有 限 什 ， 这 样 就 不 。 CA 2 | 9 
必 再 用 marked[] 数组 来 在 图 的 搜索 中 标记 可 达 的 顶点 ， (0) S| 
而 是 通过 检测 distTo[v] 是 否 为 Double.POSITIVE_ (4) (6) 6 | 3->6 
INFINITY 来 实现 hasPathTo(v)。 对 于 pathTo() 方法 ， pathTo(6) Wi 
我 们 约定 如 果 v 不 是 从 起 点 可 达 的 则 返回 nu11， 如 果 v 

等于 起 点 出 运 一 杂 不 癌 全 全 治 和 六 和 对 于 可 达 的 顶 | 人 二 

点 ， 我 们 会 遍历 最 短路 径 树 并 返回 栈 上 的 所 有 边 ， 这 和 oT | 0 2 


apihEi rstPaths 以 及 BreadthFirstPaths 的 做 法 完全 
一 样 。 图 4.4.8 显示 了 在 示例 中 路 径 0 一 2 一 7 一 3 一 6 
是 如 何 被 找到 的 。 


图 4.4.8 pathTo0) 方法 的 计算 轨迹 


public double distTo(int v) 
{ return distTo[v]; } 


public boolean hasPathTo(int v) 
{ return distTo[v] < Double.POSITIVE_INFINITY; } 


public Iterable<DirectedEdge> pathTo(int v) 
和 
if (!hasPathTo(v)) return nu11; 
Stack<DirectedEdge> path = new Stack<DirectedEdge>() ; 
for (DirectedEdge e = edgeTo[v]; e != nul1; e = edgeTo[e.from()]) 
path.push(Ce) ; 
return path ; 


} 


最 短路 径 API 中 的 查询 方法 
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4.4.3 ”最 短路 径 算 法 的 理论 基础 

边 的 放松 操作 是 一 项 非常 容易 实现 的 重要 操作 ， 它 是 实现 最 短路 径 算 法 的 基础 。 同 时 ， 它 也 是 
理解 这 个 算法 的 理论 基础 并 使 我 们 能 够 完整 地 证 明 算法 的 正确 性 。 
4.4.3.1 最 优 性 条 件 

以 下 命题 证 明了 判断 路 径 是 否 为 最 短路 径 的 全 局 条 件 与 在 放松 一 条 边 时 所 检测 的 局 部 条 件 是 等 
价 的 。 


命题 P (最 短路 径 的 最 优 性 条 件 ) 。 令 G 为 一 幅 加 权 有 向 图 ， 顶点 s 是 G 中 的 起 点 ， 
distTo[] 是 一 个 由 顶点 索引 的 数组 ， 保 存 的 是 G 中 路 径 的 长 度 。 对 于 从 s 可 这 的 所 有 顶点 Vv， 
distTo[v] 的 值 是 从 s 到 v 的 某 条 路 径 的 长 度 ， 对 于 从 s 不 可 达 的 所 有 顶点 v， 该 值 为 无 穷 大 。 
当 且 仅 当 对 于 从 v 到 w 的 任意 一 条 边 e， 这 些 值 都 满足 distTo[w]<=distTo[v]+e.weight() 
时 ( 换 句 话说 ,不 存在 有 效 边 时 ) ， 它 们 是 最 短路 径 的 长 度 。 


证 明 。 假 设 distTo[w] 是 从 s 到 w 的 最 短路 径 。 如 果 对 于 某 条 从 v 到 w 的 边 e 有 distTo[w]> 
distTo[v]+e.weight()， 那 么 从 s 到 w( 经 过 v) 县 经 过 e 的 路 径 的 长 度 必 然 小 于 
distTo[w]， 矛盾。 因此 最 优 性 条 件 是 必要 的 。 

要 证 明 最 优 性 条 件 是 充分 的 ， 假设 Ww 是 从 s 可 达 的 且 s=vo 一 Vi 一 v.: .一 vecw 是 从 s 到 w 的 
最 短路 径 ， 其 权重 为 OPTsw。 对 于 工 到 k 之 间 的 7， 念 ei 表 示 vi 到 Vi 的 边 。 根 据 最 优 性 条 件 ， 
可 以 得 到 以 下 不 等 式 : 


distTo[w] = distTo[v«.] <= distTo[v] + ex.weight() 
distTo[vx1] <= distTo[v.;] + eki.weight() 


distTo[v;] <= distTo[vi] + e,.weight() 
distTo[vi:] <= distTo[s] + e.weight() 


综合 这 些 不 等 式 并 去 掉 distTo[s]=0.0， 得 到 : 
distTo[w] <= ei.weight() + ... + ex.weight() = OPTs,. 


现在 ，distTo[w] 为 从 s 到 w 的 某 条 边 的 长 度 ， 因 此 它 不 可 能 比 最 短路 径 更 短 。 所 以 以 下 等 式 
必然 成 立 。 


0PTs，<= distTo[w] <= OPT 


4.4.3.2 ”验证 

命题 P 的 一 个 重要 的 实际 应 用 是 最 短路 径 的 验证 。 无 论 一 种 算法 会 如 何 计算 distTo[] ， 都 只 
需要 这 历 图 中 的 所 有 边 一 包 并 检查 最 优 性 条 件 是 否 满足 就 能 够 知道 该 数组 中 的 值 是 否 是 最 短路 径 的 
长 度 。 最 短路 径 的 算法 可 能 会 很 复杂 ， 因 此 能 够 快速 验证 计算 的 结果 就 变 得 很 重要 。 为 此 ， 我 们 在 
本 书 的 网 站 上 的 实现 中 包含 了 一 个 check 0 方法 。 该 方法 还 会 检查 edgeTo[] 指明 的 路 径 并 验证 它 
与 distTo[] 是 否 一 致 。 
4.4.3.3 ”通用 算法 

由 最 优 性 条 件 马上 可 以 得 到 一 个 能 够 涵盖 已 经 学 习 过 的 所 有 最 短路 径 算法 的 通用 算法 。 现 在 ， 
我 们 暂时 只 研究 非 负 权重 的 情况 。 
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命题 Q (通用 最 短路 径 算法 ) 。 将 distTo[s] 初始 化 为 0, 其 他 distTo[] 元 素 初 始 化 为 无 穷 大 ， 
继续 如 下 操作 : 

放松 G 中 的 任意 边 ， 直 到 不 存在 有 效 边 为 止 。 
对 于 任意 从 s 可 达 的 顶点 w， 在 进行 这 些 操作 之 后 ，distTo[w] 的 值 即 为 从 s 到 w 的 最 短路 径 
的 长 度 ( 且 edgeTo[w] 的 值 即 为 该 路 径 上 的 最 后 一 条 边 ) 。 


证 明 。 放 松 边 v 一 w 必 然 会 将 distTo[w] 的 值 设 为 从 s 到 w 的 某 条 路 径 的 长 度 ( 且 将 
edgeTo[w] 设 为 该 路 径 上 的 最 后 一 条 边 ) 。 对 于 从 s 可 达 的 任意 顶点 w， 只 要 distTo[w] 仍然 
是 无 穷 大 ， 到 达 w 的 最 短路 径 上 的 某 条 边 肯 定 仍然 是 有 效 的 ， 因 此 算法 的 操作 会 不 断 继续 ， 直 
到 由 s 可 达 的 每 个 顶点 的 distTo[] 值 均 变 为 到 达 该 顶点 的 某 条 路 径 的 长 度 。 对 于 已 经 找到 最 
短路 径 的 任意 顶点 V， 在 算法 的 计算 过 程 中 distTo[v] 的 值 都 是 从 s 到 v 的 某 条 (简单 ) 路 径 
的 长 度 且 必然 是 单调 递减 的 。 因 此 ， 它 递减 的 次 数 必然 是 有 限 的 (每 切换 一 条 s 到 v 简单 路 径 
就 递减 一 次 ) 。 当 不 存在 有 效 边 的 时 候 ， 命 题 P 就 成 立 了 。 


将 最 优 性 条 件 和 通用 算法 放 在 一 起 学 习 的 关键 原因 是 ， 通 用 算法 并 没有 指定 边 的 放松 顺序 。 因 
此 ， 要 证 明 这 些 算法 都 能 通过 计算 得 到 最 短路 径 ， 只 需 证 明 它们 都 会 放松 所 有 的 边 直到 所 有 边 都 失 
效 即 可 。 651 


4.4.4 ”Dijkstra 算法 

在 4.3 节 中 ， 我们 讨论 了 寻找 加 权 无 向 图 中 的 最 小 生成 树 的 Prim 算法 : 构造 最 小 生成 树 的 每 一 步 
都 问 这 棵 树 中 添加 一 条 新 的 边 。Dijkstra 算法 采用 了 类 似 的 方法 来 计算 最 短路 径 树 。 首 先 将 distTo[s] 
初始 化 为 0, distTo[] 中 的 其 他 元 素 初始 化 为 正 无 穷 。 然 后 将 distTo[] 最 小 的 非 树 顶点 放松 并 加 入 树 
中 ， 如 此 这 般 ， 直 到 所 有 的 顶点 都 在 树 中 或 者 所 有 的 非 树 顶 点 的 djstTo[] 值 均 为 无 穷 大 。 


命题 R。Dijkstra 算法 能 够 解决 边 权 重 非 负 的 加 权 有 向 图 的 单 起 点 最 短路 径 问 题 。 


证 明 。 如 果 v 是 从 起 点 可 达 的 ， 那 么 所 有 v 一 w 的 边 都 只 会 被 放松 一 次 。 当 v 被 放松 时 ， 必 有 
distTo[w]<=distTo[v]+e.weight()。 该 不 等 式 在 算法 结束 前 都 会 成 立 ， 因 此 distTo[w] 只 
会 变 小 ( 放松 操作 只 会 减 小 distTo[] 的 值 ) 而 distTo[v] 则 不 会 改变 ( 因为 边 的 权重 非 负 且 
在 每 一 步 中 算法 都 会 选择 distTo[] 最 小 的 顶点 ,之 后 的 放松 操作 不 可 能 使 任何 distTo[] 的 
值 小 于 distTo[v] ) 。 因 此 ， 在 所 有 从 s 可 达 的 顶点 均 被 添加 到 树 中 之 后 ， 最 短路 径 的 最 优 性 
条 件 成 立 ， 即 命题 P 成 立 。 


4.4.4.1 数据 结构 

要 实现 Dijkstra 算法 ， 除 了 distTo[] 和 edgeTo[] 数组 之 外 还 需要 一 条 索引 优先 队列 pq， 以 
保存 需要 被 放松 的 顶点 并 确认 下 一 个 被 放松 的 顶点 。 我 们 知道 IndexMinPQ 可 以 将 索引 和 键 ( 优先 级 ) 
关联 起 来 并 且 可 以 删除 并 返回 优先 级 最 低 的 索引 。 在 这 里 ， 只 要 将 顶点 v 和 distTo[v] 关联 起 来 
就 立即 可 以 得 到 Dijkstra 算法 的 实现 。 另 外 ， 稍 加 推导 也 可 以 知道 ，edgeTo[] 中 的 元 素 所 对 应 的 可 
达 顶 点 构成 了 一 棵 最 短路 径 树 。 
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4.4.4.2 换 一 个 角度 看 问题 


根据 算法 的 证 明 ， 我 们 可 以 从 另 一 个 角度 来 短路 生 村 
理解 它 ， 如 图 4.4.9 所 示 ， 已 知 树 结 点 所 对 应 的 | 模 切 边 (红色 ) 


distTo[] 值 均 为 最 短路 径 的 长 度 。 对 于 优先 队列 
中 的 任意 项 点 w，distTo[w] 是 从 s 到 w 的 最 短 


路 径 的 长 度 ， 该 路 径 上 的 所 有 顶点 均 在 树 中 且 路 四 
径 上 的 最 后 一 条 边 为 edgeTo[w]。 优 先 级 最 小 的 Xx 
顶点 的 distTo[] 值 就 是 最 短路 径 的 权重 ， 它 不 会 a 
小 于 已 经 被 放松 过 的 任意 顶点 的 最 短路 径 的 权重 ， | 一 条 横 切 边 必然 在 
也 不 会 大 于 还 未 被 放松 过 的 任意 顶点 的 最 短路 径 | ; 最 短路 径 树 中 
的 权重 。 这 个 顶点 就 是 下 一 个 要 被 放松 的 顶点 。 
所 有 从 s 可 达 的 顶点 都 会 按照 最 短路 径 的 权重 顺 4.4.9 ”Dijkstra 的 最 短路 径 算法 ( 另 见 彩 插 ) 
序 被 放松 。 
图 4.4.10 是 算法 处 理 样 图 tinyEWD.txt 时 的 轨迹 。 在 这 个 例子 中 ， 算 法 构造 最 短路 径 树 的 过 程 
如 下 所 述 。 
口 将 顶点 0 添加 到 树 中 ， 将 顶点 2 和 4 加 入 优先 队列 。 
口 从 优先 队列 中 删除 顶点 2， 将 0 一 2 添加 到 树 中 ， 将 顶点 7 加 入 优先 队列 。 
口 从 优先 队列 中 删除 顶点 4， 将 0 一 4 添加 到 树 中 ,将 顶点 5 加 入 优先 队列 ， 边 4 一 7 失效 。 
口 从 优先 队列 中 删除 顶点 7， 将 2 一 7 添加 到 树 中 ， 将 顶点 3 加 入 优先 队列 ， 边 7 一 5 失效 。 


口 从 优先 队列 中 删除 顶点 5， 将 4 一 5 添加 到 树 中 ， 将 顶点 工 加 入 优先 队列 ， 边 5 一 7 失效 。 

口 从 优先 队列 中 删除 顶点 3， 将 7 一 3 添加 到 树 中 ， 将 顶点 6 加 入 优先 队列 。 

口 从 优先 队列 中 删除 顶点 1， 将 5 一 1 添加 到 树 中 ， 边 1 一 3 失效 。 

口 从 优先 队列 中 删除 顶点 6， 将 3 一 6 添加 到 树 中 。 

算法 按照 顶点 到 起 点 的 最 短路 径 的 长 度 的 增 序 将 它们 添加 到 最 短路 径 树 中 ， 如 图 4.4.10 右 侧 的 
红色 箭头 所 示 。 

Dijkstra 算法 的 实现 DijkstraSP (算法 4.9 ) 只 是 用 代码 复述 了 算法 的 描述 ， 还 在 relax 0 方 
法 中 添加 了 一 行 语句 来 处 理 以 下 两 种 情况 : 要 么 边 的 toQ 得 到 的 顶点 还 不 在 优先 队列 中 ， 此 时 需 
要 使 用 insert0 方法 将 它 加 入 到 优先 队列 中 ; 要 么 它 已 经 在 优先 队列 中 且 优 先 级 需要 被 降低 ， 此 
时 可 以 用 change 0 方法 实现 。 


命题 R( 续 ) 。 在 一 幅 含有 素 个 顶点 和 互 条 边 的 加 权 有 向 图 中 ， 使 用 Dijkstra 算法 计算 根 结 点 
为 给 定 起 点 的 最 短路 径 树 所 需 的 空间 与 正成 正比 ， 时 间 与 BlogV 成 正比 (最 坏 情况 下 ) 。 


证 明 。 同 Prim 算法 的 证 明 (请 见 命 题 N) 


如 前 所 述 ， 思 考 Dijkstra 算法 的 男 一 种 方式 就 是 将 它 和 4.3 节 的 Prim 算法 (算法 4.7 ) 相 比 较 。 
两 种 算法 都 会 用 添加 边 的 方式 构造 一 棵 树 : Prim 算法 每 次 添加 的 都 是 离 树 最 近 的 非 树 顶点 ，Dijkstra 
算法 每 次 添加 的 都 是 离 起 点 最 近 的 非 树 顶点 。 它 们 都 不 需要 marked[] 数组 ， 因 为 条 件 Imarked[w] 
等 价 于 条 件 distTo[w] 为 无 穷 大 。 换 句 话 说 ， 将 算法 4.9 中 的 有 向 图 换 成 无 向 图 并 忽略 relax() 
方法 中 distTo[v] 部 分 的 代码 ， 就 会 得 到 算法 4.7， 也 就 是 Prim 算法 的 即时 版 本 (! ) 。 同 样 ， 根 


据 LazyPrimMST ( 4.3.4 节 框 注 “ 最 小 生成 树 的 
Prim 算法 的 延 时 实现 ” ) 实现 Dijkstra 算法 的 延 
时 版 本 也 并 不 困难 。 

4.4.4.3 ”变种 

我 们 只 需 对 Dijkstra 算法 的 实现 稍 作 适当 的 
修改 就 能 够 解决 这 个 问题 的 其 他 版 本 ， 例 如 ， 加 
权 无 向 图 中 的 单 点 最 短路 径 。 给 定 一 幅 加 权 无 向 
图 和 一 个 起 点 s， 回 答 “ 是 否 存 在 一 条 从 s 到 给 
定 的 顶点 v 的 路 径 ? 如 果 有 ， 找 出 最 短 (总 权重 
最 小 ) 的 那 条 路 径 。” 等 类 似 问题 。 

如 果 将 无 向 图 看 作 有 向 图 ， 这 个 问题 的 答案 
就 很 简单 了 。 也 就 是 说 ， 对 于 给 定 的 加 权 无 向 图 ， 
创建 一 幅 由 相同 顶点 构成 的 加 权 有 向 图 ， 且 对 于 
无 向 图 中 的 每 条 边 ， 相 应 地 创建 两 条 ( 方向 不 同 ) 
有 向 边 。 有 向 图 中 的 路 径 和 无 向 图 中 的 路 径 存在 
着 一 一 对 应 的 关系 ， 路 径 的 权重 也 是 相同 的 一 一 
最 短路 径 的 问题 是 等 价 的 。 


算法 4.9 ”最短 路径 的 Dijkstra 算法 


public class DijkstraSP 


private DirectedEdgef] edgeTo; 

private doublef] distTo; 

private IndexMinPQ<Double> pq; 

public DijkstraSP(EdgeWeightedDigraph 
GG ‘TRE 5 


etgeTo = new DirectedEdge[G.YO]; 

distTo = new double[G.YVO]; 

pq = new 
IndexMinPQ<Double>(G.VO); 


for (Tt v QO; v < GYVO; v++) 
distTo[v] = bouble.POSTTIVE_ 
TNFINITY: 
distTo[s] = 0.0; 


pq.insert(s, 0.0); 
while (!pq.isEmpty()) 
relax(G, pq.delMin()) 
} 


private void 
relax(EdgeWeightedDigraph G， 


{ 


int v) 


for(DirectedEdge e 
{ 


: Gadjkv)》 


int Ww e.to(); 
if (distTo{fw] > distTo[v] + e. 
weightt)) 
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红色 项 点: 

已 被 加 入 优 edgeTo[] distTo[] 
先 队 列 (pq) 0 0.00 
(3 2 0->2 0.26 0.26—<— 





4 0->4 0.38 0.38 


©) a 


黑色 顶点 ， 已 被 加 
入 最 短路 径 树 。 0 I 


@) ©@—@ Se O52 0.26 0.26 
4 0->4 0.38 0.38<— 





7 2->7 0.34 0.60 
0 0.00 
2 0->2 0.26 0.26 
4 0->4 0.38 0.38 
5 4->5 0.35 0.73 

(4) 7 2->7 0.34 0.60—<— 
0 0.00 
OO 2 0->2 0.26 0.26 
| 3 7->3 0.37 0.90 
4 0->4 0.38 0.38 

5 4->5 0.35 0.73<— 
(4) 7 2->7 0.34 0.60 
0.00 
1.05 
0.26 

(5) 0.97 <— 
(2) 0.38 
(0) 0.73 
(4) 0.60 
0 0.00 

个 1 5->1 0.32 1.05—<— 
G) 2 0->2 0.26 0.26 
@ 3 7->3 0.37 0.97 
4 0->4 0.38 0.38 
(0) 5 4->5 0.35 0.73 
6 3->6 0.52 1.49 
(4) 7 2->7 0.34 0.60 
0 0.00 
(1) 3 Su1 O03 ‘1.05 
) 2 0->2 0.26 0.26 
3 7->3 0.37 0.97 
4 0->4 0.38 0.38 
5 4->5 0.35 0.73 

6 3->6 0.52 1.49 -< 一 
(4) 7 2->7 0.34 0.60 
0 0.00 
1 5->1 0.32 1.05 
(9) 2 0->2 0.26 0.26 
3 7533 0.37 ‘097 
4 0->4 0.38 0.38 
5 4->5 0.35 0.73 
6 3->6 0.52 1.49 
(4) 7 2->7 0.34 0.60 





图 4.4.10 Dijkstra 算法 的 轨迹 ( 另 见 彩 插 ) 
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¥ 上 人 本 时 
[Wi = 


if Cpq.containstw)) pq.change(w, distTo[w]); 


else 


public double distToCint v) 


public boolean hasPathTo(int v) 


pq.insert(w, distTo[w]); 


// 最 短路 径 树 实现 中 的 标准 查询 算法 
// (请 见 4.4.2.6 节 框 注 “最 短路 径 


public Iterable<Edge> pathTo(int v) // API 中 的 查询 方法 ) 


655 } 





Dijkstra 算法 的 实现 每 次 都 会 为 最 短路 径 树 添加 一 条 边 ， 该 边 由 一 个 树 中 的 顶点 指向 一 个 非 树 


给 定 两 点 的 最 短路 径 。 给 定 一 幅 加 权 有 向 图 以 及 一 个 起 点 s 和 一 个 终点 上 ， 找 到 从 s 到 t 的 最 


短路 径 。 


要 解决 这 个 问题 ， 你 可 以 使 用 Dijkstra 算法 并 在 从 优先 队列 中 取 到 t 之 后 终止 搜索 。 


任意 项 点 对 之 间 的 最 短路 径 。 给 
定 一 幅 加 权 有 向 图 ， 回 答 “ 给 定 一 个 
起 点 5 和 一 个 终点 七 ， 是否 存在 一 条 
从 S 到 上 的 路 径 ? 如 果 有 ， 找 出 最 短 
( 总 权重 最 小 ) 的 那 条 路 径 。” 等 类 
似 问题 。 

右边 框 注 中 短小 精 悍 的 代码 解决 
了 任意 顶点 对 之 间 的 最 短路 径 问 题 ， 
所 需 的 时 间 和 空间 都 与 EVlogV 成 正 
比 。 它 构造 了 DijkstraSP 对 象 的 数 
组 ， 每 个 元 素 都 将 相应 的 顶点 作为 起 
点 。 在 用 例 进行 查询 时 ， 代 码 会 访问 


public class DijkstraAllPairsSP 


4 
private DijkstraSP[] al11; 


DijkstraAllPairsSP(EdgeWeightedDigraph G) 


all = new DijkstraSP[G.VO]J 
for (Cint v = 0; Vv < G.VO; v++) 
all[v] = new DijkstraSP(G, v); 
} 


Iterable<Edge> path(int s, int +t) 
{ return all[s].pathTo(t); } 


double dist(int s, int t) 
{ return all[s].distTo(t); } 


起 点 所 对 应 的 单 点 最 短路 径 对 象 并 将 。 “! 
目的 项 点 作为 参数 进行 查询 。 任意 顶点 对 之 间 的 最 短路 径 
欧 拉 图 中 的 最 短路 径 。 在 顶点 为 
平面 上 的 点 且 边 的 权重 与 顶点 欧 拉 间距 成 正比 的 图 中 ,解决 单 点 、 给 定 两 点 和 任意 顶点 对 之 间 的 最 


短路 径 问题 。 


在 这 种 情况 下 ， 有 一 个 小 小 的 改动 可 以 大 幅 提 高 Dijkstra 算法 的 运行 速度 ( 请 见 练习 4.4.27 ) 。 

图 4.4.11 显示 的 是 Dijkstra 算法 在 处 理 测试 文件 mediumEWD.txt ( 请 见 4.4.2.2 节 ) 所 定义 的 欧 
拉 图 时 用 若干 不 同 的 起 点 产生 最 短路 径 树 的 过 程 。 和 之 前 一 样 ， 这 幅 图 中 的 线段 都 表示 双向 的 有 向 
边 。 这 些 网 片 展 示 了 一 段 引 人 入 胜 的 动态 过 程 。 

下 面 ， 我 们 将 会 考虑 加 权 无 环 图 中 的 最 短路 径 算法 并 且 将 在 线性 时 间 内 解决 该 问题 ( 比 
Dijkstra 算法 要 快 ) 。 然 后 是 负 权 重 的 加 权 有 向 图 中 的 最 短路 径 问 题 ，Dijkstra 算法 不 适用 于 这 


[656| 种 情况 。 
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图 4.4.11 Dijkstra 算法 (250 个 顶点 ， 不 同 的 起 点 ) 657 


4.4.5 ”无 环 加 权 有 向 图 中 的 最 短路 径 算法 
许多 应 用 中 的 加 权 有 向 图 都 是 不 含有 有 向 环 的。 我 们 现在 来 学 习 一 种 比 Dijkstra 算法 更 快 、 更 
简单 的 在 无 环 加 权 有 向 图 中 找 出 最 短路 径 的 算法 ， 如 图 4.4.12 所 示 。 它 的 特点 是 : 
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口 能 够 在 线性 时 间 内 解决 单 点 最 短路 径 问 题 ; 


tinyEWDAG. txt 


口 能 够 处 理 负 权 重 的 边 ; es 
口 能 够 解决 相关 的 问题 ， 例 如 找 出 最 长 的 路 径 。 和 
这 些 算法 都 是 在 4.2 节 中 学 过 的 无 环 有 向 图 的 拓 5 7 0.28 人 G 
扑 排序 算法 的 简单 扩展 。 0 已 
特别 的 是 ， 只 要 将 顶点 的 放松 和 拓扑 排序 结合 人 © 6 
起 来 ， 马 上 就 能 够 得 到 一 种 解决 无 环 加 权 有 向 图 中 的 1 3 0.29 
最 短路 径 问题 的 算法 。 首 先 ， 将 distTo[s] 初始 化 2 
为 0， 其 他 distTo[] 元 素 初始 化 为 无 穷 大 ， 然 后 一 3 
个 一 个 地 按照 拓扑 顺序 放松 所 有 顶点 。 我 们 可 以 用 与 6 4 0.93 
Dijkstra 算法 的 证 明 (命题 R) 类 似 的 方法 证 明 这 个 图 4.4.12 ”一 幅 无 环 加 权 有 向 图 和 它 的 一 棵 


方法 的 正确 性 。 


最 短路 径 树 


命题 S$。 按 有 照 拓 扑 顺 序 放松 顶点 ， 就 能 在 和 EtV 成 正比 的 时 间 内 解决 无 环 加 权 有 向 图 的 单 点 最 
短路 径 问 题 。 


证 明 。 每 条 边 v- 一 w 都 只 会 被 放松 一 次 。 当 Yv 被 放松 时 ， 得 到 : distTo[w]<= distTo[v]+e. 
weight()。 在 算法 结束 前 该 不 等 式 都 成 立 ， 因 为 distTo[v] 是 不 会 变化 的 〈 因 为 是 按照 拓扑 
顺序 放松 顶点 ， 在 v 被 放松 之 后 算法 不 会 再 处 理 任何 指向 v 的 边 ) 而 distTo[w] 只 会 变 小 ( 任 
何 放 松 操 作 都 只 会 减 小 distTo[] 中 的 元 素 的 值 ) 。 因 此 ， 在 所 有 从 s 可 达 的 顶点 都 被 加 入 到 
树 中 后 ， 最 短路 径 的 最 优 性 条 件 成 立 ， 命 题 Q 也 就 成 立 了 。 时 间 上 限 很 容易 得 到 : 命题 G 告诉 
我 们 拓扑 排序 所 震 的 时 间 与 B+ 信 成 正比 ， 而 在 第 二 次 遍历 中 每 条 边 都 只 会 被 放松 一 次 ， 因 此 算 
法 总 耗 时 与 B+ 修成 正比 。 


图 4.4.13 是 算法 处 理 无 环 加 权 有 向 样 图 tinyEWDAG.txt 的 轨迹 。 在 这 个 例子 中 ， 算 法 由 顶点 5 


开始 按照 以 下 步骤 构建 了 一 棵 最 短路 径 树 : 


口 用 深度 优先 搜索 得 到 图 的 顶点 的 拓扑 排序 5 1 3 6 4 7 0 2; 
口 将 顶点 5 和 从 它 指出 的 所 有 边 添加 到 树 中 ; 

口 将 顶点 1 和 边 1 一 3 添加 到 树 中 ; 

口 将 顶点 3 和 边 3 一 6 添加 到 树 中 , 边 3 一 7 已 经 失效 ; 


口 将 顶点 4 和 边 4 一 0 添加 到 树 中 , 边 4 一 7 和 6 一 0 已 经 失效 ; 

口 将 顶点 7 和 边 7 一 2 添加 到 树 中 , 边 6 一 2 已 经 失效 ; 

口 将 顶点 0 添加 到 树 中 , 边 0 一 2 已 经 失效 ; 

口 将 顶点 2 添加 到 树 中 。 

图 中 没有 画 出 将 2 添加 到 树 中 的 一 步 ， 拓 扑 序列 中 的 最 后 一 个 顶点 没有 指出 的 边 。 
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拓扑 排序 

51364702 edgeTo[] 
@—、 1 5->1 
@\、 4 5->4 
GN 5->7 

0 4->0 

5->1 1 SL 

SO 3 2 

3 1-=>3 

$4 二 人 4 34 

6 3->6 

5->7 (4 A 6) 7 527 

灰色 : 失 

效 的 边 0 4->0 

5->1 (1) @) 1 5->1 

(5) 2 7->2 

1->3 @ 3 ‘Ly3 

5->4 4 5->4 

3->6 © 6 3->6 

5->7 (4) (6) ?7557 

0 6->0 0 4->0 

i (1) @) 1 531 

2 5 (5 ) > 

| 一 

4 5->4 = 

6 3->6 (9) 6 3->6 

\6) 7 5->7 (4) (6) 7 


图 4.4.13 寻找 无 环 加 权 有 向 图 中 的 最 短路 径 的 算法 轨迹 ( 另 见 彩 插 ) 


算法 4.10 在 实现 中 直接 使 用 了 已 学 习 过 的 许多 代码 。 它 假设 Topological 类 使 用 本 节 中 介绍 
的 EdgeweightedDigraph 类 和 DirectedEdge 类 的 API (请 见 练习 4.4.12 ) 重 载 了 拓扑 排序 的 方法 。 
注意 ， 该 实现 中 不 需要 布尔 数组 marked[] : 因为 是 按照 拓扑 顺序 处 理 无 环 有 向 图 中 的 顶点 ， 所 以 
不 可 能 再 次 遇 到 已 经 被 放松 过 的 顶点 。 算 法 4.10 的 效率 几乎 已 经 没有 提高 的 空间 了 : 在 拓扑 排序 后 ， 
构造 函数 会 扫描 整 幅 图 并 将 每 条 边 放松 一 次 。 在 已 知 加 权 图 是 无 环 的 情况 下 ， 它 是 找 出 最 短路 径 的 
最 好 方法 。 659 


算法 4.10 无 环 加 权 有 向 图 的 最 短路 径 算 法 


public class AcyclicSsPp 


private DirectedEdgel] edgeToi 


private doublef] distTo; 


public AcyclicSP(EdgeWeightedDigraph G, int s) 
{ 
ecgeTo new DirectedEdge[G.VGO]; 
distTo -= new doublefG.YO]; 
for (Cint v OQ V < GVO: y++) 
distToly] Doublie.POSTITIVE,_INFINITY: 


distTofs] = 0.0: 


Topological top = new Topological(G) ; 
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for (int v : top.order()) 


relax(G, Vv); 


} 


Priy te VOTO re 


Iax(EFdoeWeightedDig 


// 请 见 4.4.1.5 框 注 “ 顶 点 的 松 驰 ” 





// 最 短路 径 树 实现 中 的 标准 查询 算法 (请 见 4.4.1.6 
框 注 “最 短路 径 API 的 查询 方法 ”) 


ige> pathTo(int vy} 


无 环 加 权 有 向 图 的 最 短路 径 算 法 使 用 了 拓扑 排序 (算法 4.5， 重 载 了 EdgeweightedDigraph 类 和 
DirectedEdge 类 ) 来 按照 拓扑 顺序 放松 所 有 顶点 ， 这 对 于 计算 出 图 中 的 最 短路 径 已 经 足够 了 。 


java AcyclicSP tinyEWDAG.txt 5 


% 

5 to 
5 to 
5 to 
9 .0 
5 0 
5» C0 
ia 
5 to 


命题 $ 很 重要 ， 因 为 它 的 “无 环 ” 


0 


2 
3 
4 
5 
6 
7 


(0， 


73) : 
32 
N62 
-0620 
2 
“00: 
3 
.28) : 


5->4 0.35 4->0 0.38 


S51 O32 1->3.029 3756 ,0552 
-> 


能 够 极 大 地 简化 问题 的 论断 。 对 于 最 短路 径 问 题 ， 基 于 拓扑 


排序 的 方法 比 Dijkstra 算法 快 的 倍数 与 Dijkstra 算法 中 所 有 优先 队列 操作 的 总 成 本 成 正比 。 另 外 ， 

命题 S 的 证 明和 边 的 权重 是 否 非 负 无 关 ， 因 此 无 环 加 权 有 向 图 不 会 受到 任何 限制 。 下 面 用 这 个 特点 
解决 边 的 负 权 重 问题 。 我 们 会 考虑 使 用 这 个 最 短路 径 模型 来 解决 另外 两 个 问题 ， 其 中 之 一 乍 一 看 其 
至 和 图 的 处 理 似乎 没有 任何 关系 。 


4.4.5.1 最 长 路 径 


考虑 在 无 环 加 权 有 向 图 中 寻找 最 长 路 径 的 问题 ， 边 的 权重 可 正 可 负 。 
无 环 加 权 有 向 图 中 的 单 点 最 长 路 径 。 给 定 一 幅 无 环 加 权 有 向 图 ( 边 的 权重 可 能 为 负 ) 和 一 个 起 
点 s, 回 答 “ 是 否 存 在 一 条 从 s 到 给 定 的 顶点 v 的 路 径 ? 如 果 有 , 找 出 最 长 ( 总 权重 最 大 ) 的 那 条 路 径 。” 


等 类 似 问题 。 


我 们 刚刚 学 习 过 的 算法 能 够 快速 地 解决 这 个 问题 。 


命题 T。 解 决 无 环 加 权 有 向 图 中 的 最 长 路 径 问 题 所 需 的 时 间 与 EtV 成 正比 。 


证 明 。 给 定 一 个 最 长 路 径 问 题 ， 复 制 原始 无 环 加 权 有 向 图 得 到 一 个 副本 并 将 副本 中 的 所 有 边 的 
权重 变 为 负 值 。 这 样 ， 副 本 中 的 最 短路 径 即 为 原 图 中 的 最 长 路 径 。 要 将 最 短路 径 问 题 的 答案 转 
换 为 最 长 路 径 问 题 的 答案 ， 只 需 将 方案 中 的 权重 变 为 正 值 即 可 。 根 据 命 题 8 立即 可 以 得 到 算法 


所 需 的 时 间 。 
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根据 这 种 转换 实现 Acyc1icLP 类 来 寻找 一 幅 无 环 加 拓扑 排序 





权 有 向 图 中 的 最 长 路 径 就 十 分 简单 了 。 实 现 该 类 的 一 个 uk ER 
更 简单 的 方法 是 修改 AcyclicSP， 将 distTo[] 的 初始 (5) 
值 变 为 Double.NEGATIVE_INFINITY 并 改变 re1ax() 方 eeN Ag 
法 中 的 不 等 式 的 方向 。 无 论 使 用 哪 种 方法 ， 都 能 得 到 无 td 7 57 
环 加 权 有 向 图 中 的 最 长 路 径 问题 的 一 种 高 效 的 解决 方案 。 
和 它 形成 鲜明 对 比 的 是 ， 在 一 般 的 加 权 有 向 图 ( 边 的 权 2 
重 可 能 为 负 ) 中 寻找 最 长 简单 路 径 的 已 知 最 好 算法 在 最 3 
坏 情况 下 所 需 的 时 间 是 指数 级 别 的 (请 见 第 6 章 ) ! 出 
现 环 的 可 能 性 似乎 使 这 个 问题 的 难度 以 指数 级 别 增长 。 7 57 
图 4.4.14 是 算法 在 无 环 加 权 有 向 样 图 tnyEWDAG.txt 
中 寻找 最 长 路 径 的 轨迹 ， 你 可 以 将 它 与 图 4.4.13 相 比较 。 和 
在 这 个 例子 中 ,算法 由 顶点 5 按照 以 下 步 又 构建 了 一 棵 4 4 
最 长 路 径 树 : 3 
口 用 深度 优先 搜索 得 到 图 的 顶点 的 拓扑 排序 5 1 3 
6470 2; i 
口 将 顶点 5 和 从 它 指出 的 所 有 边 添加 到 树 中 ; 4 
口 将 顶点 1 和 边 1 一 3 添加 到 树 中 ; 
口 将 顶点 3 和 边 3 一 6、3 一 7 添加 到 树 中 ， 边 7 3 
5 一 7 已 经 失效 ; i 
口 将 顶点 6 和 边 6 一 2、6 一 4 和 6 一 0 添加 到 树 中 ; 5 
口 将 顶点 4 和 边 4 一 0、4 一 7 添加 到 树 中 ， 边 2 
6 一 0 和 3 一 7 已 经 失效 ; -a 
口 将 顶点 7 和 边 7 一 2 添加 到 树 中 , 边 6 一 2 已 经 人 
失效 ; 0 4->0 
口 将 顶点 0 添加 到 树 中 , 边 0 一 2 已 经 失效 ; 2 7 
口 将 顶点 2 添加 到 树 中 (未 画 出 ) 。 4 6->4 
最 长 路 径 算法 处 理 顶点 的 顺序 和 最 短路 径 算法 一 样 ， 网 
但 产生 的 结果 却 完全 不 同 。 662 
4.4.5.2 平行 任务 调度 GrrOG 1 3 
作为 算法 应 用 的 示例 ， 我 们 再 次 考虑 在 4.2 节 中 出 现 D>@ 3 223 
过 的 任务 调度 类 的 问题 。 这 次 需要 解决 以 下 调度 问题 (楼 CO) 和 
体 部 分 为 与 4.2.4.1 节 的 问题 描述 的 不 同 之 处 ) 。 地 本 了 4 


优先 级 限制 下 的 并 行 任务 调度 。 给 定 一 组 需要 完成 
的 特定 任务 ， 以 及 一 组 关于 任务 完成 的 先后 次 序 的 优先 图 44.14 无 环 图 中 的 最 长 路 径 算法 
级 限制 。 在 满足 限制 条 件 的 前 提 下 应 该 如 何在 若干 相同 ( 另 见 彩 播 ) 
的 处 理 器 上 (数量 不 限 ) 安排 任务 并 在 最 短 的 时 间 内 究 
成 所 有 任务 ? 

4.2 节 的 模型 默认 只 有 单个 处 理 器 : 将 任务 按照 拓扑 顺序 排序 ， 完 成 任务 的 总 耗 时 就 是 所 有 任 
务 所 需要 的 总 时 间 。 现 在 假设 有 足够 多 的 处 理 器 并 能 够 同时 处 理 任意 多 的 任务 ， 受 到 的 只 有 优先 级 
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的 限制 。 和 以 前 一 样 ， 需 要 处 理 的 任务 可 能 上 百 万 甚至 上 亿 ， 因 此 。“” 表 4.4.5 一 个 任务 调度 问题 
需要 一 个 高 效 的 算法 。 令 人 兴奋 的 是 ， 正 好 存在 一 种 线性 时 间 的 算 一 必须 ED 下 作 


法 一 一 一 种 叫做 “关键 路 径 “ 的 方法 能 够 证 明 这 个 问题 与 无 环 加 权 ”任务 ”时 耗 务 之 前 完成 
有 向 图 中 的 最 长 路 径 问题 是 等 价 的 。 这 个 方法 已 成 功 应 用 于 无 数 的 0 左下 了 7 油 
工业 软件 之 中 。 2 

假设 任意 可 用 的 处 理 器 都 能 在 任务 所 需 的 时 间 内 完成 它 ， 那 么 sa 
我 们 的 重点 就 是 尽早 安排 每 一 个 任务 。 例 如 ， 表 4.4.5 给 出 了 一 个 4 38.0 
任务 调度 问题 ， 图 4.4.15 给 出 的 解决 方案 显示 了 这 个 问题 所 需 的 最 5 45.0 
短 时 间 为 173.0。 这 份 调度 方案 满足 了 所 有 限制 条 件 ， 没 有 其 他 调 6 21.0 3 8 
度 方案 能 比 它 耗 时 更 少 ， 因 为 任务 必须 按照 0 一 9 一 6 一 8 一 2 的 2 2 8 
顺序 完成 。 这 个 顺序 就 是 这 个 问题 的 关键 路 径 。 由 优先 级 限制 指定 宁 


的 每 一 列 任务 都 代表 了 调度 方案 的 一 种 可 能 的 时 间 下 限 。 如 果 将 一 
系列 任务 的 长 度 定义 为 完成 所 有 任务 的 最 早 可 能 时 间 ， 那 么 最 长 的 
任务 序列 就 是 问题 的 关键 路 径 ， 因 为 在 这 份 任务 序列 中 任何 任务 的 
启动 延迟 都 会 影响 到 整个 项 目的 完成 时 间 。 


定义 。 解 决 并 行 任务 调度 问题 的 关键 路 径 方法 的 步骤 如 下 : 创建 一 幅 无 环 加 权 有 向 图 ， 其 中 包 
含 一 个 起 点 s 和 一 个 终点 七 且 每 个 任务 都 对 应 着 两 个 顶点 〈 一 个 起 始 顶 点 和 一 个 结束 顶点 ) 。 
对 于 每 个 任务 都 有 一 条 从 它 的 起 始 顶 点 指向 结束 顶点 的 边 ， 边 的 权重 为 任务 所 需 的 时 间 。 对 于 
每 条 优先 级 限制 v 一 w， 添 加 一 条 从 v 的 结束 顶点 指向 w 的 起 始 顶 点 的 权重 为 零 的 边 。 我 们 还 
需要 为 每 个 任务 添加 一 条 从 起 点 指向 该 任务 的 起 始 顶 点 的 权重 为 零 的 边 以 及 一 条 从 该 任务 的 结 
束 顶 点 到 终点 的 权重 为 零 的 边 。 这 样 ， 每 个 任务 预计 的 开始 时 间 即 为 从 起 点 到 它 的 起 始 顶点 的 
最 长 距离 。 





图 4.4.15 ”并行 任务 调度 问题 的 解决 方案 


图 4.4.16 显示 的 是 示例 任务 所 对 应 的 图 ， 图 4.4.17 则 显示 的 是 最 长 路 径 的 答案 。 如 定义 所 述 ， 
在 图 中 每 个 任务 都 对 应 着 三 条 边 ( 从 起 点 到 起 始 顶 点 、 从 结束 顶点 到 终点 的 权重 为 零 的 边 ， 以 及 一 
条 从 起 始 顶 点 到 结束 项 点 的 边 ) ， 每 个 优先 级 限制 条 件 都 对 应 着 一 条 边 。 后 面 框 注 “优先 级 限制 下 
的 并 行 任务 调度 问题 的 关键 路 径 方 法 ”中 的 CPM 类 简洁 明了 地 实现 了 关键 路 径 方法 。 它 能 够 将 任意 
任务 调度 问题 转化 为 无 环 加 权 有 向 图 中 的 一 个 最 长 路 径 问 题 ， 用 Acyc1icLP 解决 它 并 打印 出 每 个 
任务 的 开始 时 间 以 及 调度 方案 的 结束 时 间 。 
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任务 的 起 始 顶 点 “任务 的 结束 顶点 优先 级 限制 
过 和 一 (权重 为 零 ) 
t 32 i 
时 耗 Te C 的 
(SEE 权 重 为 零 的 边 i 的 边 
六 他 38 (© 
二 45 


图 4.4.16 任务 调度 问题 的 无 环 加 权 有 向 图 表示 





图 4.4.17 任务 调度 示例 问题 的 最 长 路 径 解决 方案 2 


优先 级 限制 下 的 并 行 任务 调度 问题 的 关键 路 径 方法 








public class CPM 


{ . . % more jobsPC. 
public static void main(String[] args) 中 
{ 10 
int N = StdIn.readInt(); StdIn.readLine(); ps 
EdgeWeightedDigraph G; 51.0 .2 
G = new EdgeWeightedDigraph (2*N+2); 50.0 
int s = 2*N, t = 2*N+1; 36.0 
for (Cint i = 0; i < Ni i++) 220 
45.0 
{ L088 
String[] a = StdIn.readLine().split("\\s+"); 32.0 3 8 
double duration = Double.parseDouble(a[0]):; 32.0 2 
G.addEdge(new DirectedEdge(i, i+N, duration)); 2 


G.addEdge (new DirectedEdge(s, i, 0.0)); 


G.addEdge(new DirectedEdge(i+N, t, 0.0)); 
for (int j = 1; j < a.length; j++) 
{ 
int successor = Integer.parseInt(a[j]); 
G.addEdge(new DirectedEdge(i+N, successor, 0.0)); 
} 
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Acyc1icLP lp = new AcyclicLP(G, s); 
% java CPM < 


StdOut.printin("Start times:"); jobsPC.txt 
for' Cint TT a0; 1 < Ns TEF) Start times: 


StdOut.printf("%4d: %5.1f\n", 1, 1p.distTo(i)); A 
Stdout.printf("Finish time: %5.1f\n", 1p.distTo(t)); 2 : 123 .0 

上 3: 91.0 

4: 70.0 

} Ss. “00 

这 里 实现 的 任务 调度 问题 的 关键 路 径 方法 将 问题 归 约 为 寻找 无 环 加 权 有 向 0 
图 的 最 长 路 径 问 题 。 它 会 根据 任务 调度 问题 的 描述 用 关键 路 径 的 方法 构造 一 幅 8: 91.0 


加 权 有 向 图 ( 且 必 然 是 无 环 的 ) ， 然 后 使 用 Acyc1icLP (请 见 命题 T) 找到 图 9; 41.0 
Finish time: 


中 的 最 长 路 径 树 ， 最 后 打印 出 各 条 最 长 路 径 的 长 度 ， 也 就 正好 是 每 个 任务 的 开 。 173 8 
始 时 间 。 





命题 U。 解 决 优先 级 限制 下 的 并 行 任务 调度 问题 的 关键 路 径 法 所 需 的 时 间 为 线性 级 别 。 


证 明 。 为 什么 CPM 类 能 够 解决 问题 ? 算法 的 正确 性 依赖 于 两 个 因素 。 首 先 ， 在 相应 的 有 向 无 环 
图 中 ， 每 条 路 径 都 是 由 任务 的 起 始 顶 点 和 结束 顶点 组 成 的 并 由 权重 为 零 的 优先 级 限制 条 件 的 边 
分 隔 一 一 从 起 点 s 到 任意 顶点 v 的 任意 路 径 的 长 度 都 是 任务 v 的 开始 /结束 时 间 的 下 限 ， 因 为 
这 已 经 是 在 同一 台 处 理 器 上 顺序 完成 这 些 任 务 的 最 优 的 排列 顺序 了 。 因 此 ， 从 起 点 s 到 终点 七 
的 最 长 路 径 就 是 所 有 任务 的 完成 时 间 的 下 限 。 第 二 ， 由 最 长 路 径 得 到 的 所 有 开始 和 结束 时 间 都 
是 可 行 的 一 一 每 个 任务 都 只 能 在 优先 级 限制 指定 的 先导 任务 完成 之 后 开始 ， 因 为 它 的 开始 时 间 
就 是 顶点 到 它 的 起 始 顶点 的 最 长 路 径 的 长 度 。 因 此 ， 从 起 点 s 到 终点 七 的 最 长 路 径 长 度 就 是 所 
有 任务 完成 时 间 的 上 限 。 由 命题 了 很 容易 得 到 算法 所 需 的 时 间 是 线性 的 。 





4.4.5.3 ”相对 最 后 期 限 限 制 下 的 并 行 任务 调度 

一 般 的 最 后 期 限 ( deadline ) 都 是 相对 于 第 一 个 任务 的 开始 时 间 而 言 的 。 假 设 在 任务 调度 问题 
中 加 入 一 种 新 类 型 的 限制 ， 需 要 某 个 任务 必须 在 指定 的 时 间 点 之 前 开始 ， 即 指定 和 另 一 个 任务 的 开 
始 时 间 的 相对 时 间 。 这 种 类 型 的 限制 条 件 在 争分夺秒 的 生产 线 上 以 及 许多 其 他 应 用 中 都 很 常见 ， 但 
它 也 会 使 得 任务 调度 问题 更 难 解决 。 例 如 ， 如 表 4.4.6 所 示 ， 假 设 要 在 前 面 的 示例 中 加 入 一 个 限制 
条 件 ， 使 2 号 任务 必须 在 4 号 任务 启动 后 的 12 个 时 间 单 位 之 内 开始 。 实 际 上 ， 在 这 里 最 后 期 限 限 
制 的 是 4 号 任务 的 开始 时 间 : 它 的 开始 时 间 不 能 早 于 2 号 任务 开始 12 个 时 间 单 位 。 在 示例 中 ， 调 
度 表 中 有 足够 的 空 档 来 满足 这 个 最 后 期 限 限制 : 我 们 可 以 令 4 号 任务 开始 于 111 时 间 ， 即 2 号 任务 
计划 开始 时 间 前 的 12 个 时 间 单 位 处 。 需 要 注意 的 是 ， 如 果 4 号 任务 耗 时 很 长 ， 这 个 修改 可 能 会 延 
长 整个 调度 计划 的 完成 时 间 。 同 理 ， 如 果 再 添加 一 个 最 后 期 限 的 限制 条 件 ， 令 2 号 任务 必须 在 7 号 
任务 启动 后 的 70 个 时 间 单 位 内 开始 ， 还 可 以 将 7 号 任务 的 开始 时 间 调 整 到 53， 这 样 就 不 用 修改 3 
号 任务 和 8 号 任务 的 计划 开始 时 间 。 但 是 如 果 继 续 限制 4 号 任务 必须 在 零 号 任务 启动 后 的 80 个 时 
间 单 位 内 开始 ， 那 么 就 不 存在 可 行 的 调度 计划 了 : 限制 条 件 4 号 任务 必须 在 0 号 任务 启动 后 的 80 
个 时 间 单 位 内 开始 以 及 2 号 任务 必须 在 4 号 任务 启动 后 的 12 个 时 间 单 位 之 内 开始 ， 意 味 着 2 号 任 
务必 须 在 0 号 任务 启动 后 的 93 个 时 间 单 位 之 内 开始 , 但 因为 存在 任务 链 0 (41 个 时 间 单 位 ) 一 9(29 
个 时 间 单 位 ) 一 6(21 个 时 间 单 位 ) 一 8 (32 个 时 间 单 位 ) 一 2，2 号 任务 最 早 也 只 能 在 0 号 任务 


启动 后 的 123 个 时 间 单 位 之 内 开始 如 表 4.4.7 所 示 。 最 后 期 限 
的 限制 越 多 ， 调 度 的 可 能 性 也 就 越 多 ， 简 单 的 问题 也 会 变 得 越 


表 4.4.7 向 任务 调度 问题 中 添加 的 最 后 期 限 限制 





任务 相对 最 后 期 限 相对 于 任务 

2 120 4 
70.0 7 

4 80.0 0 


命题 V。 相 对 最 后 期 限 限制 下 的 并 行 任务 调度 问题 是 一 个 
加 权 有 向 图 中 的 最 短路 径 问 题 ( 可 能 存在 环 和 负 权 重 边 ) 。 


证 明 。 与 命题 U 一 样 根据 任务 调度 的 描述 构造 相同 的 加 
权 有 向 图 ， 为 每 条 最 后 期 限 限制 添加 一 条 边 : 如 果 任 务 v 
必须 在 任务 Ww 启动 后 的 d 个 时 间 单 位 内 开始 ， 则 添加 一 
条 从 Vv 指向 w 的 负 权 重 为 d 的 廊 。 将 所 有 边 的 权重 取 反 
即 可 将 该 问题 转化 为 一 个 最 短路 径 问 题 。 如 果 存 在 可 行 
的 调度 方案 ， 证 明 也 就 完成 了 。 你 将 会 看 到 ， 判 断 一 个 
调度 方案 是 否 可 行 也 是 计算 的 一 部 分 。 


这 个 示例 说 明了 负 权 重 的 边 在 实际 应 用 的 模型 中 也 能 起 
到 重要 的 作用 。 它 说 明 ， 如 果 能 够 有 效 解 决 负 权重 边 的 最 短路 
径 问 题 ， 那 就 能 够 找到 相对 最 后 期 限 限制 下 的 并 行 任务 调度 问 
题 的 解决 方案 。 我 们 已 经 学 习 过 的 算法 都 无 法 完成 这 个 任务 : 
Dijkstra 算法 只 适用 于 正 ( 或 零 ) 权重 的 边 , 算法 4.10 要 求 有 
向 图 是 无 环 的 。 下 面 我 们 来 看 看 如 何 解决 含有 负 权 重 且 不 一 定 
是 无 环 的 有 向 图 中 的 最 短路 径 问 题 ( 请 见 图 4.4.18 ) 。 


4.4.6 一般 加 权 有 向 图 中 的 最 短路 径 问题 

刚才 讨论 过 的 最 后 期 限 限制 下 的 任务 调度 问题 告诉 我 们 负 
权重 的 边 并 不 仅仅 是 一 个 数学 问题 。 相 反 ， 它 能 够 极 大 地 扩展 
解决 最 短路 径 问 题 的 模型 的 应 用 范围 。 接 下 来 ， 考 虑 既 可 能 含 
有 环 也 可 能 含有 负 权重 的 边 的 加 权 有 向 图 中 的 最 短路 径 算法 。 
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表 4.4.6 相对 最 后 期 限 限制 下 的 


任务 调度 

原始 问题 
任务 ”开始 时 间 
0 0.0 
0 
2 123.0 
3 91.0 
4 70.0 
5 0.0 
6 70.0 
7 41.0 
8 91.0 
9 41.0 

2 号 任务 必须 在 4 


号 任务 启动 后 的 12 
个 时 间 单位 之 内 开始 
任务 ”开始 时 间 


0.0 


covonhm 和 wh 口 
请 
[ 
[a 
© 


vw 
> 
上 
© 


2 号 任务 必须 在 7 

号 任务 启动 后 的 70 

个 时 间 单 位 之 内 开始 
任务 ”开始 时 间 


0 0.0 
1 41.0 
Zz 123:0 
3 91.0 
不 lt 
5 0.0 
6 70.0 
7 53.0 
8 91.0 
9 41.0 

4 号 任务 必须 在 0 

号 任务 启动 后 的 80 

个 时 间 单位 之 内 开始 
调度 方案 不 存在 


在 开始 之 前 ， 先 来 学 习 一 下 这 种 有 向 图 的 基本 性 质 以 更 新 我 们 对 最 短路 径 的 认识 。 图 4.4.19 是 一 个 
小 小 的 示例 ， 展 示 的 是 负 权 重 的 边 对 有 向 图 中 的 最 短路 径 的 影响 。 也 许 最 明显 的 改变 就 是 当 存 在 负 
权重 的 边 时 ， 权 重 较 小 的 路 径 含 有 的 边 可 能 会 比 权重 较 大 的 路 径 更 多 。 在 只 存在 正 权重 的 边 时 ,我 
们 的 重点 在 于 寻找 近 路 ; 但 当 存 在 负 权 重 的 边 时 ， 我 们 可 能 会 为 了 经 过 负 权 重 的 边 而 绕 弯 。 这 种 效 
应 使 得 我 们 要 将 查找 “最 短 ” 路 径 的 感觉 转变 为 对 算法 本 质 的 理解 。 因 此 需要 抛弃 直觉 并 在 一 个 简单 、 


抽象 的 层面 上 考虑 这 个 问题 。 
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图 4.4.18 ”相对 最 后 期 限 限制 和 优先 级 限制 下 的 并 行 任务 调度 问题 的 加 权 有 向 图 表示 


4.6:14 全 试 

第 一 个 想法 是 先 找到 权重 最 小 ( 最 小 的 
负 值 ) 的 边 ， 然 后 将 所 有 边 的 权重 加 上 这 个 
负 值 的 绝对 值 ， 这 样 原 有 向 图 就 转变 称 为 了 
一 幅 不 含有 负 权 重 边 的 有 向 图 。 这 种 天 真 的 
做 法 不 会 解决 任何 问题 ， 因 为 新 图 中 的 最 短 
路 径 和 原 图 中 的 最 短路 径 毫 无 关系 。 路 径 中 
的 边 越 多 ， 这 种 变换 产生 的 危害 越 大 ( 请 见 
练习 4.4.14) 。 
4.4.6.2 ”尝试 II 

第 二 个 想法 是 尝试 改造 Dijkstra 算法 。 
这 种 方法 最 根本 的 缺陷 在 于 原 算法 的 基础 在 
于 根据 距离 起 点 的 远近 依次 检查 路 径 。 命 题 
R 对 算法 正确 性 的 证 明 是 基于 添加 一 条 边 会 
使 的 路 径 变 得 更 长 的 假设 。 但 添加 任意 负 权 
重 的 边 只 会 使 得 路 径 更 短 ， 因 此 这 个 假设 是 
不 成 立 的 (请 见 练习 4.4.14 ) 。 
4.4.6.3” 负 权重 的 环 

当 我 们 在 研究 含有 负 权 重 边 的 有 向 图 时 ， 
如 果 该 图 中 含有 一 个 权重 为 负 的 环 ， 那 么 最 


—~sg 


tinyEWDn .txt 


人 负 权 重 的 边 为 
图 中 的 虚线 


edgeTo[] distTo[] 





0 

1 -SY 0.93 
2 052 0.26 
$ Tn3 0.99 
4 6->4 0.26 
5 4->5 0.61 
6 336 小 二 本 
7 2->7 0.60 


图 4.4.19 含有 负 权 重 的 边 的 加 权 有 向 图 


短路 径 的 概念 就 失去 意义 了 。 例 如 图 4.4.20， 除了 边 5 一 4 的 权重 为 -0.66 外 ， 它 和 第 一 个 示例 完 


全 相同 。 这 里 ， 环 4 一 7 一 5 一 4 的 权重 为 : 


0.37+0.28-0.66=-0.01 
我 们 只 要 围 着 这 个 环 忽 圈子 就 能 得 到 权重 任意 短 的 路 径 ! 注意 ， 有 向 环 的 所 有 边 的 权重 并 不 一 


定 都 必须 是 负 的 ， 只 要 权重 之 和 是 负 的 即 可 。 


定义 。 加 权 有 向 图 中 的 负 权 重 环 是 一 个 总 权重 ( 环 上 的 所 有 边 的 权重 之 和 ) 为 负 的 有 向 环 。 
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现在 , 假设 从 s 到 可 达 的 某 个 顶点 v 的 路 径 上 的 某 个 顶点 在 一 个 负 权 重 环 上 。 在 这 种 情况 下 ， 
从 s 到 v 的 最 短路 径 是 不 可 能 存在 的 ， 因为 可 以 用 这 个 负 权 重 环 构造 权重 任意 小 的 路 径 。 换 句 话说 ， 
在 负 权 重 环 存在 的 情况 下 ， 最 短路 径 问题 是 没有 意义 的 ， 如 图 4.4.21 所 示 。 


命题 W。 当 且 仅 当 加 权 有 向 图 中 至 少 存在 一 条 从 s 到 v 的 有 向 路 径 且 所 有 从 s 到 v 的 有 向 路 径 
上 的 任意 顶点 都 不 存在 于 任何 负 权 重 环 中 时 ，s 到 v 的 最 短路 径 才 是 存在 的 。 


证 明 。 请 见 以 上 讨论 以 及 练习 4.4.29。 


注意 ， 要 求 最 短路 径 上 的 任意 顶点 都 不 存在 负 权重 环 意味 着 最 短路 径 是 简单 的 ， 而 且 与 正 权 重 
边 的 图 一 样 都 能 够 得 到 此 类 顶点 的 最 短路 径 树 。 


灰色 : 从 s 不 可 达 的 顶点 


tinyEWDnc .txt \ f 
Pe De 名: 从 s 可 达 的 项 点 
LS : hn 
4 5 0.35 
5 4 -0.66 区 \ 黑色 轮廓 : 存 
0.37 昌 t 在 从 s 到 达 该 项 
Ls . 〇 一 全 点 的 最 短路 径 





0.32 . SS 

0.38 

0.26 
0.39 ) 
0.29 LE) 


0.34 
0.40 负 权重 环 
0.52 


0.58 
0.93 
从 顶点 0 到 顶点 6 的 最 短路 径 


0->4->7->5->4->7->5:…->1->3->6 


ONOWONPNOOUNUaD 
POONNOUWNPAPUNY 


红 边 轮廓 : 不 存在 从 s 到 达 该 顶点 的 最 短路 径 
图 4.4.20 含有 负 权重 环 的 加 权 有 向 图 ( 另 见 彩 插 ) 图 4.4.21 最 短路 径 问 题 的 各 种 可 能 性 ( 另 见 彩 插 ) 


4.4.6.4 ”尝试 II 

无 论 是 否 存 在 负 权重 环 ， 从 s 到 可 达 的 其 他 顶点 的 一 条 最 短 的 简单 路 径 都 是 存在 的 。 为 什么 不 
定义 最 短路 径 以 方便 寻找 呢 ? 不 幸 的 是 ， 已 知 解决 这 个 问题 的 最 好 算法 在 最 坏 情况 下 所 需 的 时 间 是 
指数 级 别 的 ( 请 见 第 6 章 ) 。 一 般 来 说 ,我 们 认为 这 种 问题 “ 太 难 了 ”， 只 会 研究 它 的 简单 版 本 。 

因此 ， 一 个 定义 明确 且 可 以 解决 加 权 有 向 图 最 短路 径 问 题 的 算法 要 能 够 : 

口 对 于 从 起 点 不 可 达 的 顶点 ， 最 短路 径 为 正 无 穷 ( +oo ) ; 

口 对 于 从 起 点 可 达 但 路 径 上 的 某 个 顶点 属于 一 个 负 权重 环 的 顶点 ， 最 短路 径 为 负 无 穷 (一 % ) ; 

口 对 于 其 他 所 有 项 点， 计算 最 短路 径 的 权重 (以 及 最 短路 径 树 ) 。 

从 本 节 的 开始 ， 我 们 会 不 断 为 最 短路 径 问题 加 上 各 种 限制 并 找到 解决 相应 问题 的 办 法 。 首 先 ， 
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我 们 不 允许 负 权 重 边 的 存在 ; 其 次 不 接受 有 向 环 。 现 在 我 们 放宽 所 有 这 些 条 件 并 重点 解决 一 般 有 向 
图 中 的 以 下 问题 。 

负 权 重 环 的 检测 。 给 定 的 加 权 有 向 图 中 含有 负 权 重 环 吗 ? 如 果 有 ， 找 到 它 。 

负 权 重 环 不 可 达 时 的 单 点 最 短路 径 。 给 定 一 幅 加 权 有 向 图 和 一 个 起 点 s 上 且 从 s 无 法 到 达 任 何 负 
权重 环 ， 回 答 “ 是 否 存在 一 条 从 s 到 给 定 的 顶点 v 的 有 向 路 径 ? 如 果 有 ， 找 出 最 短 (总 权重 最 小 ) 
的 那 条 路 径 。” 等 类 似 问 题 。 

总 结 。 尽 管 在 含有 环 的 有 向 图 中 最 短路 径 是 一 个 没有 意义 的 问题 ， 而 且 也 无 法 有 效 解决 在 这 种 
有 向 图 中 高 效 找 出 最 短 简单 路 径 的 问题 ， 在 实际 应 用 中 仍然 需要 能 够 识别 其 中 的 负 权 重 环 。 例 如 ， 
在 最 后 期 限 限制 下 的 任务 调度 问题 中 ， 负 权重 环 的 出 现 可 能 相对 较 少 ， 限制 条 件 和 最 后 期 限 都 是 从 
现实 世界 中 的 实际 限制 得 来 的 ， 因 此 负 权 重 环 大 多 可 能 来 自 于 问题 陈述 中 的 错误 。 找 出 负 权 重 环 ， 
改正 相应 的 错误 ， 找 到 没有 负 权 重 环 问题 的 调度 方案 才 是 解决 问题 的 正确 方式 。 在 其 他 情况 下 ， 找 
到 负 权 重 环 就 是 计算 的 目标 。 下 面 这 个 由 R.Bellman 和 L.Ford 在 20 世纪 50 年 代 末 期 发 明 的 算法 能 
够 简明 、 有 效 地 解决 这 些 问 题 并 且 同 样 适用 于 正 权 重 边 的 有 向 图 。 


命题 X〈Bellman-Ford 算法 ) 。 在 任意 含有 大 个 顶点 的 加 权 有 向 图 中 给 定 起 所 s， 从 s 无 法 到 
达 任 何 负 权重 环 ， 以 下 算法 能 够 解决 其 中 的 单 点 最 短路 径 问题 : 将 distTo[s] 初始 化 为 0， 其 他 
distTo[] 元 素 初 始 化 为 无 穷 大 。 以 任意 顺序 放松 有 向 图 的 所 有 边 ， 重 复 信 轮 。 


证 明 。 对 于 从 s 可 达 的 任意 顶点 上 ， 考 虑 从 s 到 t 的 一 条 最 短路 径 ; Vo 一 V1 一 .一 Vx， 其 
中 ve 等 于 s，vk 等 于 t+。 因为 负 权重 环 是 不 可 达 的 ， 这 样 的 路 径 是 存在 的 且 K 不 会 大 于 -1。 
我 们 会 通过 归纳 法 证 明 算 法 在 第 了 轮 之 后 能 够 得 到 s 到 vi 的 最 短路 径 。 最 简单 的 情况 ( 1=0) 
很 容易 。 假 设 对 于 7 命题 成 立 ， 那 么 s 到 v; 的 最 短路 径 即 为 vo 一 Vi 一 .…' 一 vi，distTo[v)] 
就 是 这 条 路 径 的 长 度 。 现 在 ， 我 们 在 第 了 轮 中 放松 所 有 的 顶点 ， 包 括 vi， 因 此 distTo[via] 
不 会 大 于 distTo[v;] 与 这 Vi 一 Vi 的 权重 之 和 。 在 第 7 了 7 轮 放松 之 后 ,，distTo[v;n] 必然 等 于 
distTo[v;] 与 边 vi 一 vnmi 的 权重 之 和 。 它 不 可 能 更 大 ， 因 为 在 第 i 了 轮 中 放松 了 所 有 顶点 ， 包 
括 Vi; 它 也 不 可 能 更 小 ， 因 为 它 就 是 路 径 v 一 Vi 一 …' 一 Vid 的 长 度 ， 也 就 是 最 短路 径 了 。 因 
此 ， 在 7+1 轮 之 后 算法 能 够 得 到 从 s 到 vi 的 最 短路 径 。 


命题 W ( 续 ) 。Bellman-Ford 算法 所 需 的 时 间 和 EV 成 正比 ， 空 间 和 人族 成 正比 。 
证 明 。 在 每 一 轮 中 算法 都 会 放松 已 条 边 ， 共 重复 三 轮 。 


”这 个 方法 非常 通用 ， 因 为 它 没有 指定 边 的 放松 顺序 。 下 面 将 注意 力 集中 在 一 个 通用 性 稍 逊 的 方 
法 上 ， 其 中 只 放松 从 任意 项 点 指出 的 所 有 边 ( 顺 序 任意 ) ， 以 下 代码 说 明了 这 种 方法 的 简洁 性 : 


for (int pass = 0; pass < G.V(O); pass++) 
for (v= 0; Vv < G.VO; v++) 
for (DirectedEdge e : G.adj(v)) 
relax(e); 


我 们 不 会 仔细 研究 这 个 版 本 ， 因 为 它 总 是 会 放松 VE 条 边 且 只 需 稍 作 修 改 即 可 使 算法 在 一 般 的 
应 用 场景 中 更 加 高 效 。 
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4.4.6.5 ”基于 队列 的 Bellman-Ford 算法 
其 实 ， 根 据 经 验 我 们 很 容易 知道 在 任意 一 轮 中 许多 边 的 放松 都 不 会 成 功 : 只 有 上 一 轮 中 的 
distTo[] 值 发 生变 化 的 顶点 指出 的 边 才 能 够 改变 其 他 distTo[] 元 素 的 值 。 为 了 记录 这 样 的 顶点 ， 
我 们 使 用 了 一 条 FIFO 队列 。 算 法 在 处 理 正 权 重 标准 样 图 中 进行 的 操作 如 图 4.4.22 所 示 。 在 示意 图 
4.4.22 左 侧 是 每 一 轮 中 队列 中 的 有 效 顶 点 (红色) ， 紧 接着 是 下 一 轮 中 的 有 效 顶 点 (黑色 ) 。 首 先 
将 起 点 加 入 队列 ， 然 后 按照 以 下 步骤 计算 最 短路 径 树 。 
口 放松 边 1 一 3 并 将 顶点 3 加 入 队列 。 
口 放松 边 3 一 6 并 将 顶点 6 加 入 队列 。 
口 放松 边 6 一 4、6 一 0 和 6 一 2 并 将 顶点 4、0 和 2 加 入 队列 。 
口 放松 边 4 一 7、4 一 5 并 将 顶点 7 和 4 加 入 队列 。 放 松 已 经 失效 的 边 0 一 4 和 0 一 2。 然 后 再 
放松 边 2 一 7 (并 重新 为 4 一 7 着色 ) 。 
口 放松 边 7 一 5 (并 重新 为 4 一 5 着 色 ) 但 不 将 顶点 5 加 入 队列 ( 它 已 经 在 队列 之 中 了 ) 。 放 
松 已 经 失效 的 边 7 一 3。 然 后 放松 已 经 失效 的 边 5 一 1、5 一 4 和 5 一 7。 此 时 队列 为 空 。 
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黑色 ， 下 一 轮 的 有 效 顶 点 ep 
图 4.4.22 ”Bellman-Ford 算法 的 轨迹 ( 另 见 彩 插 ) 
4.4.6.6 ”实现 
根据 这 些 描 述 实 现 Bellman-Ford 算法 所 需 的 代码 非常 少 ， 如 算法 4.11 所 示 。 它 基于 以 下 两 种 
其 他 的 数据 结构 : 
口 一 条 用 来 保存 即将 被 放松 的 顶点 的 队列 q; 
口 一 个 由 顶点 索引 的 boolean 数组 onQ[] ， 用 来 指示 顶点 是 否 已 经 存在 于 队列 中 ， 以 防止 将 “[673] 


顶点 重复 插入 队列 。 
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首先 ,将 起 点 s 加 入 队列 中 ， private void relax(EdgeWeightedDigraph G, int v) 
然后 进入 一 个 循环 ， 其 中 每 次 { 


都 从 队列 中 取出 一 个 顶点 并 将 for (DirectedEdge e ; Gadj(v) 
其 放松 。 要 将 一 个 顶点 插入 队 人 
列 ， 需要 修改 4.4.2.4 节 框 注 “ 边 if {distTlofw] > distfefv]l + e.weightO)) 
的 松 驰 ”中 relaxQ 方法 的 实 ek distTo[v] + e.weight(); 
现 ， 以 便 将 被 成 功放 松 的 边 所 pp 
指向 的 顶点 加 入 队列 中 ， 如 碳 { 
边框 注 “Bellman-Ford 算法 中 queue .enqueue (w); 
的 放松 操作 ”所 示 。 这 些 数据 te 
WR if CEostit % GVGO = .0) 
口 队列 中 不 出 现 重复 的 顶点 ; findNegativeCycle() ; 
口 在 某 一 轮 中 , 改变 了 edg- ] 
eTo[] 和 distTo[] 的 值 
的 所 有 顶点 都 会 在 下 一 轮 Bellman-Ford 算 法 中 的 放松 操作 
中 处 理 。 


要 完整 地 实现 该 算法 ， 我 们 就 需要 保证 在 亚 轮 后 算法 能 够 终止 。 实 现 它 的 一 种 方法 是 显 式 记录 
放松 的 轮 数 。 我 们 的 实现 Be11manFordSP (算法 4.11 ) 使 用 了 另 一 种 方法 ,将 会 在 4.4.6.8 节 详 述 : 
它 会 在 有 向 图 的 edgeTo[] 中 检测 是 否 存在 负 权 重 环 ， 如 果 找 到 则 结束 运行 。 


命题 Y。 对 于 任意 含有 了 个 顶点 的 加 权 有 向 图 和 给 定 的 起 点 Ss， 在 最 坏 情 况 下 基于 队列 的 
Bellman-Ford 算法 解决 最 短路 径 问 题 (或 者 找到 从 s 可 达 的 负 权 重 环 ) 所 需 的 时 间 与 EV 成 正比 ， 
空间 和 六 成 正比 。 


证 明 。 如 果 不 存在 从 s 可 达 的 负 权 重 环 ， 算 法 会 根据 命题 义 在 进行 V1 轮 放松 操作 后 结束 ( 
为 所 有 最 短路 径 含有 的 边 数 都 小 于 大 1 ) 。 如 果 的 确 存在 一 个 从 s 可 达 的 负 权 重 环 ， 那 么 队列 
永远 不 可 能 为 室 。 根 据 命 题 又 ， 在 第 到 轮 放松 之 后 ，edgeTo[] 数组 必然 会 包含 一 条 含有 一 个 
环 的 路 径 ( 从 某 个 顶点 Ww 回 到 它 自己 ) 且 该 环 的 权重 必然 是 负 的 。 因 为 w 会 在 路 径 上 出 现 两 次 
且 s 到 w 的 第 二 次 出 现 处 的 路 径 长 度 小 于 s 到 w 的 第 一 次 出 现 的 路 径 长 度 。 在 最 坏 情况 下 ， 该 
算法 的 行为 和 通用 算法 相似 并 会 将 所 有 的 瑟 条 边 全 部 放松 三 轮 。 


算法 4.11 基于 队列 的 Bellman-Ford 算法 


publicsclass BellmanFordSP 


€ 
private double[] distTo; // 从 起 点 到 某 个 顶点 的 路 径 长 度 
private DirectedEdge[] edgeTo; // 从 起 点 到 某 个 顶点 的 最 后 一 条 边 
private boolean[] onQ; // 该 顶点 是 否 存在 于 队列 中 
private Queue<Integer> queue; // 正在 被 放松 的 顶点 


private int cost; // relax() 的 调用 次 数 
private Iterable<DirectedEdge> cycle; // edgeTo[] 中 的 是 否 有 负 权 重 环 
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public BellmanFordSP(EdgeWeightedDigraph G, int s) 
{ 


distTo = new double[G.VO]; 

edgeTo = new DirectedEdge[G.VO]; 

onQ = new boolean[G.VO]; 

queue = new Queue<Integer>() ; 

for Cint v 92Y < .VC v++) 
distTo[fv] = Bouble. POSITIVE_INFINITY; 

distTIo[s] =- 0.0; 

queue.enqueue(s); 

onQ[s] = true; 

while (!queue.isEmpty() && !this.hasNegativeCycle()) 

生 


int v = queue.dequeue(QO); 
onQ[v] = false; 
relax(G, Vv); 


} 
和 
private void relax(EdgeWeightedDigraph G,v) 
/1 4.4.6.6 节 洽 注 “Bel1iman-Ford 半 法 的 放 浴 操作 
public double distToCint v) // 最 短路 径 树 实现 中 的 标准 查询 算法 (请 见 4.4.2.6 节 “最 短路 


径 API 的 查询 方法 ”) 
public boolean haspathToCint v) 
pubiic Iterable<Edge> pathTo(int v) // 4.4.6.8 节 框 注 “Bellman-Ford” 的 负 权 重 检测 方法 


private void findNegativeCycle() 
public boolean hasNegativeCycle() 
public Iterable<Edge> negativeCycle() 


// 请 见 6.4.6.8 节 . 
} 


Bellman-Ford 算法 的 实现 修改 了 relaxQ 〇 方法 ,将 被 成 功放 松 的 边 指向 的 所 有 项 点 加 入 到 一 条 


FIFO 队列 中 ( 以 避免 出 现 重 复 顶 点 ) 并 周期 性 地 检查 edgeTo[] 表示 的 子 图 中 是 否 存 在 负 权 重 环 (请 
见 正文 ) 。 674 


基于 队列 的 Bellman-Ford 算法 能 够 准确 有 效 地 解决 最 短路 径 问 题 并 且 在 实际 中 被 广泛 应 用 ， 甚 
至 包括 正 权 重 的 情况 。 例 如 ， 如 图 4.4.23 所 示 ， 在 含有 250 个 顶点 的 样 图 中 ， 算 法 进行 了 14 轮 操 
作 且 对 于 相同 的 问题 比较 路 径 长 度 的 次 数 少 于 Dijkstra 算法 。 


4.4.6.7 


负 权 重 的 边 


图 4.4.24 显示 了 Bellman-Ford 算法 在 处 理 含有 负 权 重 边 的 有 向 图 的 轨迹 。 首 先 将 起 点 加 入 队列 
q， 然 后 按照 以 下 步骤 计算 最 短路 径 树 。 


口 放松 边 0 一 2 和 0 一 4 并 将 顶点 2、4 加 入 队列 。 

口 放松 边 2 一 7 并 将 顶点 7 加 入 队列 。 放 松 边 4 一 5 并 将 顶点 5 加 入 队列 。 然 后 放松 失效 的 边 
4 一 7。 

口 放松 边 7 一 3 和 5 一 工 并 将 顶点 3 和 工 加 入 队列 。 放 松 失效 的 边 5 一 4 和 5 一 7。 

口 放松 边 3 一 6 并 将 顶点 6 加 入 队列 。 放 松 失效 的 边 工 一 3。 

口 放松 边 6 一 4 并 将 顶点 4 加 入 队列 。 这 条 负 权重 边 使 得 到 顶点 4 的 路 径 变 短 ， 因 此 它 的 边 需 
要 被 再 次 放松 〈 它们 在 第 二 轮 中 已 经 被 放松 过 ) 。 从 起 点 到 顶点 5 和 1 的 距离 已 经 失效 并 
会 在 下 一 轮 中 修正 。 
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口 放松 边 4 一 5 并 将 顶点 5 加 入 队列 。 放 松 失效 的 边 
4 一 7。 


5 一 4 和 5 一 7。 

口 放松 无 效 的 边 1 一 3。 队 列 为 空 。 

在 这 个 例子 中 ， 最 短路 径 树 就 是 一 条 从 顶点 0 到 顶点 
1 的 路 径 。 从 顶点 4、5 和 1 指出 的 所 有 边 都 被 放松 了 两 次 。 
对 照 这 个 例子 重读 命题 X 的 证 明 能 够 帮助 你 更 好 的 理解 这 
个 算法 。 
4.4.6.8” 负 权重 环 的 检测 

实现 BellmanFordSP 会 检测 负 权 重 环 来 避免 陷入 无 
限 的 循环 中 。 我 们 也 可 以 将 这 段 检测 代码 独立 出 来 使 得 用 
例 可 以 检查 并 得 到 负 权 重 环 。 因 此 我 们 为 表 4.4.4 中 的 API 
添加 以 下 方法 请 见 表 4.4.8。 


表 4.4.8 为 处 理 负 权重 环 扩 展 最 短路 径 的 API 


boolean hasNegativeCycle() 是 否 含有 负 权 
重 环 


Iterable<DirectedEdge> negativeCycle() 得 到 负 权 重 环 


(如 果 没 有 则 
返回 nu11) 


实现 这 些 方法 并 不 困难 ， 如 以 下 代码 所 示 。 在 
BellmanFordSP 的 构造 函数 运行 之 后 ,命题 Y 说 明 在 将 
所 有 边 放松 天 轮 之 后 当 且 仅 当 队列 非 空 时 有 向 图 中 才 存 
在 从 起 点 可 达 的 负 权 重 环 。 如 果 是 这 样 ，edgeTo[] 数组 
所 表示 的 子 图 中 必然 含有 这 个 负 权 重 环 。 因 此 ， 要 实现 
negativeCycle()， 会 根据 edgeTo[] 中 的 边 构 造 一 幅 加 
权 有 向 图 并 在 该 图 中 检测 环 。 我 们 会 使 用 并 修改 4.2 节 中 
的 Di rectedCycle 类 来 在 加 权 有 向 图 中 寻找 环 〈 请 见 练 
习 4.4.12 ) 。 这 种 检查 的 成 本 分 为 以 下 几 个 部 分 。 

口 添加 一 个 变量 cycle 和 一 个 私有 函数 findNega- 
tive-Cycle()。 如 果 找 到 负 权 重 环 ， 该 方法 会 将 
cycle 的 值 设 为 含有 环 中 所 有 边 的 一 个 迭 代 器 ( 如 
果 没 有 找到 则 设 为 nu11 ) 。 

口 每 调用 VV 次 relax0 方法 后 即 调用 findNegati- 
veCycle() 方法 。 


轮 数 
红色 表示 的 是 队列 中 的 边 
4 
: 
最 短 
路 径 树 


图 4.4.23 ”Bellman-Ford 算法 (250 个 
顶点 ) ( 另 见 彩 插 ) 
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图 4.4.24 ”Bellman-Ford 算法 的 轨迹 (图 中 含有 负 权 重 边 ) 
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distTo[] 


0.73 
0.60 
distTo[] 
1.05 


J:99 


distTo[] 


E 


distTo[] 
1.05 


ma 
0.26 
0.73 


distTo[] 


1.05 


distTo[] 


OpPOOOODO 
NO 
a 


( 另 见 彩 插 ) 


这 种 方法 能 够 保证 构造 函数 中 的 循环 必然 会 终止 。 另 外 ， 用 例 可 以 调用 hasNegativeCycle() 
来 判断 是 否 存在 从 起 点 可 达 的 负 权 重 环 ( 并 用 negativeCycle() 来 获取 这 个 环 ) 。 要 在 任意 有 问 
图 中 检测 负 权重 环 的 存在 只 需 稍 作 扩展 即 可 ( 请 见 练习 4.4.43 ) 。 
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图 4.4.25 是 Bellman-Ford 算 法 在 
一 幅 含 有 负 权 重 环 的 有 向 图 中 的 运行 轨 
迹 。 头 两 轮 放松 操 作 与 处 理 tinyEWDn. 
txt 时 是 一 样 的 。 在 第 三 轮 中 ， 算 法 
在 放松 了 边 7 一 3 和 5 一 1 并 将 顶点 
3 和 1 加 入 队列 后 开始 放松 负 权 重 边 
5 一 4。 在 这 次 放松 操作 中 算法 发 现 了 
一 个 负 权 重 环 4 一 5 一 4。 它 将 5 一 4 
加 入 最 短路 径 树 中 并 在 edgeTo[] 中 将 
环 和 起 点 隔离 开 来 。 从 这 时 开始 ， 算 法 
沿 着 环 继续 运行 并 会 减少 到 达 所 遇 到 的 
所 有 顶点 的 距离 , 直至 检测 到 环 的 存在 ， 
此 时 队列 非 空 。 环 被 保存 在 edgeTo[] 
中 ，findNegativeCycle() 会 在 其 中 
找到 它 。 


tinyEWDnc .txt 队列 
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6->2 0.40 5 
3->6 0.52 3 
6->0 0.58 1 
6->4 0.93 4 (4) 
多 
有 
4 
6 
7 
$ 
6 
? 
5 
3 
于 
4 
图 4.4.25 


private void findNegativeCycle() 


{ 


} 


int V = edgeTo.length; 
EdgeWeightedDigraph spt; 
spt = new EdgeWeightedDigraph(V); 
for (int v= 0% Vv < V; vit+) 
if (edgeTo[v] != null) 
spt.addEdge (edgeTo[v]); 


EdgeWeightedCycleFinder cf; 
cf = new EdgeWeightedCycleFinder(spt); 


cycle = cf.cycle(); 


public boolean hasNegativeCycle() 


{ 


return cycle != null; } 


public Iterable<Edge> negativeCycle() 


{ 


© SR 
© J 








return cycle; 1} 


Bellman-Ford 算 法 的 负 权 重 环 检测 方法 


edgeTo[] distTo[] 


0.99 


的 长 度 


edgeTo[] distTo[] 


5 4->5 0.42 
6 336 L.5L 
”i 0.44 


edgeTo[] distTo[] 


1 5->1 0.74 
3 753 0.83 
4 5->4 ”-0.59 < 路 径 0 一 4 一 5 一 


Bellman-Ford 算法 的 轨迹 (含有 负 权 重 环 的 图 ， 另 见 彩 插 ) 


0.07 下 路径 0 一 4 一 5 一 4 


4 一 5 一 4 的 长 度 
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4.4.6.9 套 汇 

假设 有 一 个 基于 商品 贸易 的 金融 交易 市 场 。 以 下 框 注 显 示 的 是 示例 文件 rates.txt 的 内 容 ， 你 可 
以 在 任意 货币 兑换 比例 的 表格 中 找到 类 似 的 内 容 。 文 件 的 第 一 行 是 货币 的 种 类 数 VV， 接 下 来 的 每 一 
行 都 对 应 一 种 货币 ， 开 头 是 该 货币 的 名 称 ， 紧 接着 是 它 和 其 他 货币 兑换 的 汇率 。 简 单 起 见 ， 这 个 例 
子 中 只 包含 了 能 够 在 现代 市 场 中 进行 交易 的 数 百 种 货币 中 的 五 种 : 美元 (USD ) 、 欧 元 (EUR ) 、 
英镑 (GBP ) 、 瑞 士 法 郎 (CHF ) 和 加 元 (CAD ) 。 第 s 行 的 第 t 个 数字 表示 一 个 汇率 ， 即 购买 一 
个 单位 的 第 s 行 的 货币 需要 多 少 个 单位 的 第 t 行 的 货币 。 例 如 ， 这 张 表 告诉 我 们 ，1000 美元 能 够 
购买 741 欧元 。 这 张 表格 等 价 于 一 幅 完 全 的 加 权 有 向 图 ， 顶 点 对 应 着 货币 ， 边 则 对 应 着 汇率 。 权 重 
为 x 的 边 s 一 t 表示 从 货币 s 到 货币 上 的 汇率 为 x。 这 张 图 中 的 路 径 则 表示 多 次 兑换 。 例 如 ， 将 权 
重 为 y 的 边 t 一 u 和 刚才 的 边 结 合 起 来 就 得 到 了 一 条 路 径 s 一 t 一 u， 即 一 个 单位 的 货币 s 可 以 竞 
换 为 xy 个 单位 的 货币 u。 比 如 ， 欧 元 可 以 兑换 得 到 1012.206=741*1.366 加 元 。 注 意 ， 这 比 直接 用 
美元 兑换 的 汇率 更 高 。 你 可 能 会 以 为 xy 总 是 应 该 等 于 边 s 一 u 的 权重 ,但 这 张 表格 所 表示 的 金融 
系统 非常 复杂 ， 并 不 总 是 能 够 保证 这 种 一 臻 性。 因此， 找到 所 有 从 s 到 vu 的 路 径 中 所 有 边 的 权重 之 
积 最 大 者 就 是 我 们 最 感 兴 趣 的 问题 。 一 种 更 有 趣 的 情况 是 ， 所 有 边 的 权重 之 积 小 于 从 终点 指向 起 点 
的 边 的 权重 。 在 这 个 示例 中 ,假设 边 u 一 s 的 权重 为 z 且 xyz>1。 那 么 环 s 一 t 一 u 一 s 就 能 够 用 
一 个 单位 的 货币 s 得 到 多 于 一 个 单位 (xyz) 的 货币 s。 换 名 话说 ， 将 货币 s 兑换 为 t、u 并 最 后 
再 兑换 为 s 就 可 以 得 到 100(xyz-1) 的 利润 。 例 如 ， 如 果 将 1012.206 加 元 重新 兑换 为 美元 ， 可 以 
得 到 1012.206*0.995=1007.14497 美元 ， 也 就 是 得 到 了 7.14497 美元 的 利润 。 这 看 起 来 似乎 不 多 ， 
但 一 个 外 汇 交 易 商 可 能 会 用 一 百 万 美元 并 在 每 分 钟 都 进行 一 遍 这 样 的 交易 ， 也 就 是 说 他 每 分 钟 的 
利润 将 超过 7000 美元 ， 或 者 说 每 小 时 的 利润 超过 420 000 美元 ! 这 就 是 套 汇 交易 的 一 个 例子 ， 请 
见 图 4.4.26。 如 果 没 有 外 力 的 限制 ， 
比如 手续 费 或 是 交易 金额 上 限 ， 交 易 % more rates.txt 
商 可 以 从 其 中 获取 无 限 的 利润 。 即 使 a 


Ks : USD 1 0.741 0.657 1.061 1.005 
是 在 现实 世界 中 的 这 些 限 制 下 ， 套 汇 EUR, 1349 开 0.888 1.433 1.366 
的 利润 仍然 是 非常 高 的 。 这 个 问题 和 GBP' Lu SG 证 1.614: 1.538 
利 仍 3 E 常 高 | CHF ‘0,942. 0.698 0.619 1 0.953 
最 短路 径 问 题 有 什么 关系 呢 ? 要 回答 CAD 0.995 0.732 0.650 1.049 1 


这 个 问题 非常 简单 。 


命题 Z。 套 汇 问 题 等 价 于 加 权 有 向 图 中 的 负 权 重 环 的 检测 问题 。 


证 明 。 取 每 条 边 权重 的 自然 对 数 并 取 反 ， 这 样 在 原始 问题 中 所 有 边 的 权重 之 积 的 计算 就 转化 为 
了 新 图 中 所 有 边 的 权重 之 和 的 计算 。 任 意 权重 之 积 ww2…wk 即 对 应 -In(w)-In(w)-…-Inowb 之 和 。 
转换 后 边 的 权重 可 能 为 正 也 可 能 为 负 。 一 条 从 v 到 w 的 路 径 表示 将 货币 v 兑换 为 货币 w， 图 中 
的 任意 负 权 重 环 都 是 一 次 套 汇 的 好 机 会 ( 请 见 图 4.4.27 ) 。 


在 这 个 示例 中 , 货币 可 以 任意 兑换 ,因此 有 向 图 是 完全 的 , 任意 负 权 重 环 都 是 从 任意 项 点 可 达 的 。 
在 一 般 的 商品 交易 中 ， 有 些 边 可 能 并 不 存在 ,因此 需要 练习 4.4.43 所 述 的 只 有 一 个 参数 的 构造 函数 。 
目前 没有 已 知 的 寻找 最 佳 套 汇 机 会 ( 图 中 负 权 重 最 小 的 环 ) 的 高 效 算法 ( 图 的 规模 不 需要 很 大 就 能 
使 所 需 的 计算 量 超过 计算 机 的 承受 能 力 ) ,但 找 出 任意 套 汇 机 会 的 最 快 算法 仍然 是 很 重要 的 一 一 在 
第 二 快 的 算法 找到 任何 套 汇 机 会 之 前 ， 使 用 这 种 算法 的 商人 很 可 能 已 经 可 以 系统 地 排除 许多 不 佳 的 


套 汇 机 会 了 。 
-1n(.741) -1n(1.366) -1n(.995) 


0.741 * 1.366 * .995 = 1.00714497 


.2998 - .3119 + .0050 = -.0071 








图 4.4.26 一 次 套 汇 机 会 图 4.4.27 ”一 个 负 权重 环 就 表示 了 一 次 套 汇 的 机 会 
货币 兑换 中 的 套 汇 
public class Arbitrage 
{ 
public static void main(String[] args) 
{ 
int V = StdIn.readInt(); 
String[] name = new String[V]; 
EdgeWeightedDigraph G = new EdgeWeightedDigraph(V); 
for (Cint v= 0; Vv < V; Vv++) 
{ 
name[v] = StdIn.readSstring() ; 
for (int w = 0; W < Vi w++) 
{ 
double rate = StdIn.readDouble(); 
DirectedEdge e = new DirectedEdge(v, w, -Math.log(rate)); 
G.addEdge(e); 
} 
} 
BellmanFordSP spt = new BellmanFordSP(G, 0); 
if (spt.hasNegativeCycle()) 
double stake = 1000.0; 
for (DirectedEdge e : spt.negativeCycle()) 
E 
StdOut.printf("%10.5f %s", stake, name[e.from()]); 
stake *= Math.exp(-e.weight()); 
StdOut.printf("= %10.5f %s\n", stake, name[e.to()]); 
} 
3 
else Stdout.println(C"No arbitrage opportunity"); 
} 


4.4 最 短路 径 霹 445 


这 段 代 码 调 用 了 BellmanFordSP 类 来 寻 A rr 
i. i ey ava Arbitrage < rates.tx 
找 汇率 表 中 的 套 汇 机 会 。 它 首先 使 用 完全 有 向 O00 S0000 rig 741.00000 EUR 


图 表示 汇率 表 ， 然 后 用 Bellman-Ford 算法 来 寻 741.00000 EUR = 1012.20600 CAD 
找 图 中 的 负 权 重 环 。 1012.20600 CAD = 1007.14497 USD 


命题 Z 的 证 明 即 使 在 没有 套 汇 机 会 的 情况 下 仍然 有 用 ， 因 为 它 将 货币 兑换 问题 转化 为 了 一 个 
最 短路 径 问 题 。 因 为 对 数 函 数 是 单调 的 〈 且 会 对 计算 的 结果 取 反 ) ， 当 边 的 权重 之 和 最 小 时 汇率 
之 积 正 好 最 大 。 尽 管 边 的 权重 可 正 可 负 ， 从 v 到 w 的 最 短路 径 仍 然 是 将 货币 v 兑换 为 货币 w 的 最 1679 
好 方法 。 681 


4.4.7 ”展望 

表 4.4.9 总 结 了 本 节 中 我 们 所 学 习 到 的 各 种 最 短路 径 算法 的 重要 性 质 。 在 这 些 算法 中 进行 选择 
的 第 一 个 条 件 是 问题 所 涉及 的 有 向 图 的 基本 性 质 。 它 含有 负 权 重 的 边 吗 ? 它 含有 环 吗 ? 它 含 有 负 权 
重 的 环 吗 ? 除了 这 些 基 本 性 质 之 外 ， 加 权 有 向 图 的 特性 多 种 多 样 ， 因 此 在 有 多 个 合适 的 选择 时 就 需 
要 通过 实验 找 出 最 佳 的 算法 。 


表 4.4.9 最短 路径 算法 的 性 能 特点 









路 径 长 度 的 比较 次 数 
局 限 (增长 的 数量 级 ) 所 需 空间 
最 坏 情 况 下 仍 有 较 好 的 


月 


ElogV ElogV KV 性 能 
E+V E+V V 
E+V VE V 




















Dijkstra 算法 〈 即时 版 本 ) 边 的 权重 必须 为 正 






只 适用 于 无 环 加 权 有 


向 






拓扑 排序 





是 无 环 图 中 的 最 优 算法 
适用 领域 广泛 


Bellman-Ford 算 法 ( 基于 队列 ) | 不 能 存在 负 权 重 环 





历史 资料 
自 20 世纪 50 年 代 以 来 ， 最 短路 径 算 法 就 已 经 被 深入 地 研究 并 被 广泛 应 用 了 。 计 算 最 短路 径 的 
Dijkstra 算法 的 历史 和 计算 最 小 生成 树 的 Prim 算法 的 历史 背景 相似 (并且 也 相关 ) 。Dijkstra 算法 
既 指 的 是 按照 顶点 距离 起 点 的 远近 顺序 构造 最 短路 径 树 的 算法 ， 也 指 的 是 该 算法 的 实现 ，( 它 也 是 
最 适合 用 临 接 和 矩阵 表示 的 算法 。 ) ， 因 为 Dijkstra 在 1959 年 的 一 篇 论文 中 发 表 了 上 述 观 点 〈 并 且 证 
明了 这 种 方法 同样 也 可 以 用 来 计算 最 小 生成 树 ) 。 稀 玖 图 算法 的 性 能 改进 来 自 于 之 后 对 优先 队列 实 
现 的 改进 ， 不 仅仅 针对 最 短路 径 问题 。 这 其 中 最 重要 的 是 Dijkstra 算法 性 能 的 改进 。 ( 例如 ， 使 用 
斐 波 那 契 堆 后 最 坏 情况 下 的 复杂 度 可 以 提高 到 E+VlogV) 。 实 践 证 明 Bellman-Ford 算法 十 分 有 效 并 
且 应 用 领域 广泛 ， 特 别 是 处 理 一 般 性 的 加 权 有 向 图 。 由 于 Bellman-Ford 算法 计算 普通 应 用 的 运行 时 
间 和 常常 是 线性 的 ， 因 此 在 最 坏 情况 下 它 的 运行 时 间 是 VE。 最 坏 情 况 下 的 运行 时 间 为 线性 级 别 的 稀 
蚊 图 的 最 短路 径 算法 是 一 个 仍 在 研究 之 中 的 问题 。Bellman-Ford 算法 最 早 由 L.Ford 和 R.Bellman 发 
表 于 20 世纪 50 年 代 。 尽 管 我 们 已 经 看 到 许多 其 他 的 图 算法 性 能 得 到 了 大 幅 改 进 ， 但 是 处 理 含有 人 负 ”|682 
权重 边 ( 但 不 含 负 权 重 环 ) 的 且 在 最 坏 情 况 下 性 能 更 好 的 有 向 图 算法 还 没有 出 现 。 683 
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疼 答 惰 


咕 百 


为 什么 要 分 别 为 无 向 图 、 有 向 图 、 加 权 无 向 图 、 加 权 有 向 图 定义 不 同 的 数据 类 型 ? 
这 么 做 是 为 了 使 用 例 代 码 更 清晰 ， 同 时 也 是 为 了 更 加 简洁 和 高 效 地 实现 没有 权重 的 图 。 在 需 


要 处 理 各 种 图 的 应 用 或 系统 中 ， 软 件 工程 中 的 标准 做 法 就 是 先 定义 一 种 抽象 数据 结构 并 根据 
它 衍 生出 其 他 抽象 数据 结构 ， 也 就 是 4.1 节 中 学 习 的 无 向 图 Graph，4.2 节 中 学 习 的 有 向 图 
Digraph，4.3 节 中 学 习 的 加 权 无 向 图 EdgeweightedGraph， 或 是 在 本 节 中 学 习 的 加 权 有 向 图 
EdgeweightedDigraph。 

问 ” 如 何在 (加权 ) 无 向 图 中 找到 最 短路 径 ? 

答对 于 边 的 权重 均 为 正 的 图 ，Dijkstra 算法 可 以 解决 这 个 问题 。 只 需 根据 给 定 的 EdgeWe-ightedGraph 
构造 一 幅 EdgeWeightedDigraph (无 向 图 中 的 每 条 边 都 对 应 着 有 向 图 中 的 两 条 方向 不 同 的 边 ) 并 执 
行 Dijkstra 算法 即 可 。 如 果 边 的 权重 可 能 为 负 ， 高 效 的 算法 也 是 存在 的 ， 但 它们 比 Bellman-Ford 算 
法 更 复杂 。 


图 练 


4.4.1 


4.4.2 


4.4.3 


4.4.4 


4.4.5 


4.4.6 
4.4.7 


4.4.8 


4.4.9 


真 假 判 断 : 将 每 条 边 的 权重 都 加 上 一 个 常数 不 会 改变 单 点 最 短路 径 问 题 的 答案 。 

为 EdgeWeightedDigraph 类 实现 toString (0) 方法 。 

为 稠密 图 实现 一 种 使 用 邻接 矩阵 表示 法 ( 用 二 维 数组 保存 边 的 权重 ， 请 参考 练习 4.3.9 ) 的 
EdgeweightedDigraph 类 。 和 忽略 平行 边 。 

从 tinyEWD.txt 中 (请 见 图 4.4.4 ) 删 去 顶点 7 并 给 出 加 权 有 向 图 中 以 顶点 0 为 起 点 的 最 短路 径 树 ， 
使 用 父 链接 数组 表示 这 棵 树 。 将 图 中 所 有 边 的 方向 反 转 并 回答 相同 的 问题 。 

在 tinyEWD.txt 中 (请 见 图 4.4.4 ) 改变 边 0 一 2 的 方向 。 画 出 该 加 权 有 向 图 中 以 顶点 2 为 起 点 的 
两 棵 不 同 的 最 短路 径 树 。 

给 出 用 即时 版 本 的 Dijkstra 算法 计算 练习 4.4.5 所 定义 的 图 的 最 短路 径 树 的 轨迹 。 

实现 DijkstraSpP 的 另 一 个 版 本 ， 支 持 一 个 方法 来 返回 一 幅 加 权 有 向 图 中 从 s 到 t 的 另 一 条 最 短 
路 径 。 (如 果 从 s 到 t 的 最 短路 径 只 有 一 条 则 返回 nu11。) 

一 幅 有 向 图 的 直径 指 的 是 连接 任意 两 个 顶点 的 所 有 最 短路 径 中 的 最 大 长 度 。 编 写 一 个 DijkstraSP 
的 用 例 ， 找 出 边 的 权重 非 负 的 给 定 EdgeWeightedDigraph 图 的 直径 。 

表 4.4.10 来自 于 一 张 很 早 以 前 出 版 的 公路 地 图 ， 它 显示 的 是 城市 之 间 的 最 短路 径 的 长 度 。 这 张 表 
中 有 一 个 错误 。 改 正 这 个 错误 并 新 建 一 张 表 来 说 明 最 短路 径 是 哪 条 。 


4.4.10 ”将 练习 4.4.4 中 定义 的 有 向 图 看 作 无 向 图 ， 该 无 向 图 中 的 每 条 边 对 应 有 向 图 中 的 两 条 方向 不 同 但 


4.4.11 


权重 相同 的 边 。 为 对 应 的 有 向 图 回答 练习 4.4.6 中 的 问题 。 
使 用 1.4 节 中 的 内 存 使 用 模型 评估 用 EdgeweightedDigraph 表示 一 幅 含 有 VV 个 顶点 各 条 边 的 
图 所 需 的 内 存 。 


4.4.12 修改 42 节 中 的 DirectedCycle 类 和 Topological 类 ， 使 之 使 用 本 节 中 的 EdgeweightedDigraph 


类 和 DirectedEdge 类 的 API 并 实现 EdgeWeightedCycleFinder 类 和 EdgeWeightedTopological 类 。 


4.4.13 ”从 tinyEWD.txt 中 (请 见 图 4.4.4 ) 删 去 边 5 一 7， 用 Dijkstra 算法 计算 所 得 的 有 向 图 的 最 短路 径 


树 并 按照 正文 中 的 样式 给 出 算法 的 轨迹 。 
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表 4.4.10 














普罗 维 登 斯 
威 斯 特 里 
新 伦敦 












4.4.14 给 出 使 用 4.4.6.1 节 和 4.4.6.2 节 的 两 种 尝试 处 理 图 4.4.19 的 tinyEWDn.txt 所 得 到 的 路 径 。 
4.4.15 ”如 果 从 顶点 s 到 v 的 路 径 上 存在 一 个 负 权重 环 ， 调 用 Bellman-Ford 算法 的 pathTo(v) 方法 会 发 
生 什 么 ? 
4.4.16 假设 用 EdgeweightedGraph 中 的 每 条 边 Edge 都 替换 为 两 条 ( 两 个 方向 各 一 条 ) Di rected- 
Edge 的 方式 将 EdgeweightedGraph 类 转化 为 EdgeweightedDigraph 类 (如 答疑 中 关于 
Dijkstra 算 法 的 部 分 所 述 ) 然 后 再 使 用 Bellman-Ford 算 法 处 理 它 。 说 明 为 什么 这 种 方法 大 错 特 错 。 
4.4.17 在 Bellman-Ford 算法 中 如 果 一 个 顶点 在 同一 轮 中 被 两 次 加 入 队列 会 发 生 什么 ? 
解答 : 算法 所 需 的 运行 时 间 将 会 达到 指数 级 。 例 如 ， 描 述 一 幅 边 的 权重 全 部 为 -1 的 加 权 
有 向 完全 图 中 Bellman-Ford 算法 的 执行 情况 。 
4.4.18 ”编写 一 个 CPM 的 用 例 来 打印 出 所 有 的 关键 路 径 。 
4.4.19” 找 出 正文 中 的 例子 里 权重 最 低 的 环 ( 即 最 佳 套 汇 机 会 ) 。 
4.4.20 ”从 网 上 或 者 报纸 上 找到 一 张 汇率 表 并 用 它 构 造 一 张 套 汇 表 。 注 意 : 不 要 使 用 根据 若干 数据 计算 
得 出 的 汇率 表 ， 它 们 的 精度 有 限 。 附 加 题 ， 从 汇率 市 场 上 赚 点 外 快 ! 
4.4.21 用 Bellman-Ford 算法 计算 练习 4.4.5 中 的 加 权 有 向 图 的 最 短路 径 树 并 按照 正文 中 的 样式 给 出 算法 [685 
的 轨迹 。 687 


图 提高 是 


4.4.22 顶点 的 权重 。 证 明 ， 要 得 到 顶点 也 有 非 负 权重 的 加 权 有 向 图 中 的 最 短路 径 ( 路 径 的 权重 为 路 径 


上 的 顶点 权重 之 和 ) ， 可 以 通过 构造 一 幅 只 有 边 含有 权重 的 加 权 有 向 图 解决 。 
4.4.23 给 定 两 点 的 最 短路 径 。 设 计 并 实现 一 份 API， 使 用 Dijkstra 算法 的 改进 版 本 解决 加 权 有 向 图 中 给 
定 两 点 的 最 短路 径 问题 。 


4.4.24 多 起 点 最 短路 径 。 设 计 并 实现 一 份 API， 使 用 Dijkstra 算法 解决 加 权 有 向 图 中 的 多 起 点 最 短路 径 
问题 ， 其 中 边 的 权重 均 为 正 : 给 定 一 组 起 点 ， 找 到 相应 的 最 短路 径 森 林 并 实现 一 个 方法 为 用 例 
返回 从 任意 起 点 到 达 每 个 顶点 的 最 短路 径 。 提 示 : 添加 一 个 伪 顶 点 和 从 该 项 点 指向 每 个 起 点 的 
一 条 权重 为 零 的 边 ， 或 者 在 初始 化 时 将 所 有 起 点 加 入 优先 队列 并 将 它们 在 distTo[] 中 对 应 的 值 
均 设 为 0。 

4.4.25 两 个 顶点 集合 之 间 的 最 短路 径 。 给 定 一 幅 边 的 权重 均 为 正 的 有 向 图 和 两 个 没有 交集 的 顶点 集 8 
和 7， 找 到 从 5 中 的 任意 顶点 到 达 了 中 的 任意 顶点 的 最 短路 径 。 你 的 算法 在 最 坏 情 况 下 所 需 的 时 
间 应 该 与 Blogy 成 正比 。 
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4.4.26 


4.4.27 


4.4.28 


4.4.29 


4.4.30 


4.4.31 


4.4.32 


4.4.33 


4.4.34 


4.4.35 


4.4.36 


4.4.37 


4.4.38 


稠密 图 中 的 单 点 最 短路 径 。 实 现 另 一 个 版 本 的 Dijkstra 算法 ， 使 之 能 够 在 与 户 成 正比 的 时 间 内 
在 一 幅 稠 密 的 加 权 有 向 图 中 计算 出 给 定 顶 点 的 最 短路 径 树 。 请 使 用 邻接 矩阵 法 表示 稠密 图 ( 请 
参考 练习 4.4.3 和 练习 4.3.29 ) 。 

欧 拉 图 中 的 最 短路 径 。 已 知 图 中 的 顶点 均 在 平面 上 ， 修 改 API 以 提高 Dijkstra 算法 的 性 能 。 

有 向 无 环 图 中 的 最 长 路 径 。 重 新 实现 Acyc1icLP 类 ， 根 据 命题 解决 加 权 有 向 无 环 图 中 的 最 长 
路 径 问 题 。 

一 般 最 优 性 。 完 成 命题 W 的 证 明 ， 说明 如 果 存 在 从 s 到 v 的 有 向 路 径 且 从 s 到 v 的 任意 路 径 上 
的 所 有 顶点 都 不 在 任意 负 权 重 环 上 , 那么 必然 存在 一 条 从 s 到 v 的 最 短路 径 ( 提示 : 参考 命题 P ) 。 
含有 负 权 重 环 的 图 中 的 任意 顶点 对 之 间 的 最 短路 径 。 人 参考 4.4.4.3 节 框 注 “ 任 意 顶 点 对 之 间 的 
最 短路 径 ” 所 实现 的 不 含 负 权重 环 的 图 中 任意 顶点 对 之 间 的 最 短路 径 问 题 并 设计 一 份 API。 使 
用 Bellman-Ford 算法 的 一 个 变种 来 确定 权重 数组 pi [] ， 使 得 对 于 任意 边 v 一 w， 边 的 权重 加 上 
pi[v] 和 pi[w] 之 差 的 和 非 负 。 然 后 更 新 所 有 边 的 权重 ， 使 得 Dijkstra 算法 可 以 在 新 图 中 找 出 所 
有 的 最 短路 径 。 

线 图 中 任意 顶点 对 之 间 的 最 短路 径 。 给 定 一 幅 加 权 线 图 ( 无 向 连通 图 ， 除 了 两 个 端点 度数 为 1 
之 外 所 有 顶点 的 度数 为 2) ， 给 出 一 个 算法 在 线性 时 间 内 对 图 进行 预 处 理 并 在 常数 时 间 内 返回 任 
意 两 个 顶点 之 间 的 最 短路 径 。 

启发 式 的 父 结 点 检查 。 修 改 Bellman-Ford 算法 ， 仅 当 顶 点 v 在 最 短路 径 树 中 的 父 结 点 
edgeTo[v] 目前 不 在 队列 中 时 才 访 问 v。Cherkassky 、Goldberg 和 Radzik 在 实践 中 发 现 这 种 启发 
式 的 做 法 十 分 有 帮助 。 证 明 这 种 方法 能 够 正确 的 计算 出 最 短路 径 且 在 最 坏 情 况 下 的 运行 时 间 和 
EV 成 正比 。 

网 格 图 中 的 最 短路 径 。 给 定 一 个 Mx N 的 正 整数 矩阵 , 找到 从 (0,0) 到 (N-1, N-1) 的 最 短路 径 ， 
路 径 的 长 度 即 为 路 径 中 所 有 正 整数 之 和 。 在 只 能 向 右 和 向 下 移动 的 限制 下 重新 解答 这 个 问题 。 
单调 最 短路 径 。 给 定 一 幅 加 权 有 向 图 ， 找 出 从 s 到 其 他 每 个 顶点 的 单调 最 短路 径 。 如 果 一 条 路 
径 上 的 所 有 边 的 权重 是 严格 单调 递增 或 递减 的 ， 那 么 这 条 路 径 就 是 单调 的 。 这 样 的 路 径 应 该 是 
简单 的 (不 包含 重复 项 点 ) 。 提 示 : 按照 权重 的 升序 放松 所 有 边 并 找到 一 条 最 佳 路 径 ; 然后 按 
照 权 重 的 降序 放松 所 有 边 再 找到 另 一 条 最 佳 路 径 。 

双 调 最 短路 径 。 给 定 一 幅 有 向 图 ， 找 到 从 s 到 其 他 每 个 顶点 的 双 调 最 短路 径 ( 如 果 存 在 ) 。 如 
果 从 s 到 t 的 路 径 上 存在 一 个 中 间 顶 点 v 使 得 从 s 到 v 中 的 所 有 边 的 权重 均 严 格 单调 递增 且 从 
v 到 t 上 中 的 所 有 边 的 权重 均 严 格 单调 递减 ， 那 么 这 就 是 一 条 双 调 路 径 。 这 样 的 路 径 应 该 是 简单 的 
(不 包含 重复 顶点 ) 。 

邻居 顶点 。 编 写 一 个 SP 的 用 例 ， 找 出 一 幅 给 定 加 权 有 向 图 中 和 一 个 给 定 顶点 的 距离 在 4 之 内 的 
所 有 顶点 。 你 的 算法 所 需 的 运行 时 间 应 该 与 由 这 些 顶 点 和 依附 于 它们 的 边 组 成 的 子 图 的 大 小 以 
及 VV( 用 于 初始 化 数据 结构 ) 中 的 较 大 者 成 正比 。 

关键 边 。 给 出 一 个 算法 来 找到 给 定 的 加 权 有 向 图 中 的 一 条 边 ， 删 去 这 条 边 使 得 给 定 的 两 个 顶点 
之 间 的 最 短 距离 的 增加 值 最 大 。 

敏感 度 。 给 定 一 幅 加 权 有 向 图 和 一 对 顶点 s 和 tt， 编写 一 个 SP 的 用 例 对 该 图 中 的 所 有 边 进行 敏 
感度 分 析 : 计算 一 个 Vx 矿 的 布尔 矩阵 ， 对 于 任意 的 v 和 w， 当 v 一 w 为 加 权 有 向 图 中 的 一 条 
边 且 增加 v 一 w 的 权重 不 会 增加 从 s 到 t 的 最 短路 径 的 权重 时 ,v 行 w 列 的 值 为 true， 和 否则 为 


false。 
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4.4.39 延 时 Dijkstra 算法 的 实现 。 根 据 正文 实现 Dijkstra 算法 的 延 时 版 本 。 

4.4.40 ”瓶颈 最 短路 径 树 。 请 证 明 一 幅 无 向 图 中 的 一 棵 最 小 生成 树 等 价 于 该 图 中 的 一 棵 瓶颈 最 短路 径 树 : 
对 于 任意 一 对 顶点 v 和 w， 该 树 都 含有 一 条 连接 它们 的 路 径 且 其 中 的 最 长 边 是 所 有 连接 两 点 的 路 
径 中 最 短 的 。 

4.4.41 双向 搜索 。 基 于 算法 4.9 的 代码 为 给 定 两 点 的 最 短路 径 问 题 实现 一 个 类 ， 但 在 初始 化 时 将 起 点 和 
终点 都 加 入 优先 队列 。 这 么 做 会 使 最 短路 径 树 从 两 个 顶点 同时 开始 生长 ， 你 的 主要 任务 是 决定 
两 棵 树 相 遇 时 应 该 怎么 办 。 

4.4.42 ”最 坏 情 况 (Dijkstra 算法 ) 。 找 出 含有 VV 个 顶点 和 EE 条 边 的 一 组 图 ， 使 得 Dijkstra 算法 处 理 它们 
所 需 的 运行 时 间 为 最 坏 情况 。 

4.4.43 负 权 重 环 的 检测 。 假 设 为 算法 4.11 加 入 了 一 个 构造 函数 ， 它 和 已 有 的 构造 函数 的 区 别 仅 在 于 
不 需要 第 二 个 参数 并 将 distTo[] 中 的 所 有 元 素 初始 化 为 0。 证 明 ， 如 果 用 例 调用 的 是 这 个 
构造 函数 ， 那 么 当 且 仅 当 图 中 含有 一 个 负 权 重 环 时 ，hasNegativeCycle() 才 会 返回 true。 
(negativeCycle() 会 返回 那个 负 权重 环 。 ) 


解答 : 向 原 图 添加 一 个 新 的 起 点 以 及 从 该 起 点 指向 所 有 其 他 顶点 的 权重 为 0 的 边 。 在 一 轮 放松 
之 后 ，distTo[] 中 的 所 有 元 素 的 值 均 会 变 为 0， 从 新 起 点 开始 寻找 一 个 负 权重 环 和 在 原 图 中 寻 
找 负 权 重 环 是 等 价 的 。 
4.4.44 最 坏 情况 (Bellman-Ford 算法 ) 。 找 出 一 组 图 ， 使 得 算法 4.11 的 运行 时 间 与 VE 成 正比 。 [690|] 


4.4.45 快速 Bellman-Ford 算法 。 对 于 边 的 权重 为 整数 且 绝对 值 不 大 于 某 个 常数 的 特殊 情况 ， 给 出 
一 个 解决 一 般 的 加 权 有 向 图 中 的 单 点 最 短路 径 问题 的 算法 ， 其 所 需 的 运行 时 间 低 于 线性 对 数 
级 别 。 

4.4.46 动画 。 编 写 一 段 程序 将 Dijkstra 算法 用 动画 表现 出 来 。 691 


图 实验 是 


4.4.47 随机 加 权 有 向 稀疏 图 。 修 改 你 为 练习 4.3.34 给 出 的 解答 ， 随 机 指定 每 条 边 的 方向 。 

4.4.48 ”随机 加 权 有 向 欧 拉 图 。 修 改 你 为 练习 4.3.35 给 出 的 解答 ， 随 机 指定 每 条 边 的 方向 。 

4.4.49 随机 加 权 有 向 网 格 图 。 修 改 你 为 练习 4.3.36 给 出 的 解答 ， 随 机 指定 每 条 边 的 方向 。 

4.4.50” 负 权重 边 I。 修 改 你 的 随机 加 权 有 向 图 生成 器 ， 通 过 调整 比例 将 边 的 权重 控制 在 在 x 和 yy 之 间 (x 
和 ?都 在 -1 和 1 之 间 ) 。 

4.4.51 负 权 重 边 工 。 修 改 你 的 随机 加 权 有 向 图 生成 器 ， 将 固定 比例 (此 值 由 用 例 指定 ) 的 边 的 权重 取 反 
来 生成 负 权 重 的 边 。 

4.4.52 ” 负 权 重 边 II。 编 写 一 段 程序 ， 调 用 你 的 加 权 有 向 图 生成 器 ， 尽 可 能 为 大 范围 的 和 E 值 生成 多 
幅 加 权 有 向 图 ， 保 证 图 中 大 部 分 边 的 权重 为 负 且 只 有 若干 个 负 权 重 环 。 9 
测试 所 有 的 算法 并 研究 所 有 图 的 模型 的 所 有 参数 是 不 现实 的 。 请 为 下 面 的 每 一 道 题 都 编写 一 段 
程序 来 处 理 从 输入 得 到 的 任意 图 。 这 段 程序 可 以 调用 上 面 的 任意 生成 器 并 对 相应 的 图 模型 进行 
实验 。 你 可 以 根据 上 次 实验 的 结果 自己 作出 判断 来 选择 不 同 实验 。 陈 述 结果 以 及 由 此 得 出 的 任 
何 结论 。 

4.4.53 预测。 请 估计 你 的 计算 机 和 程序 系统 使 用 Dijkstra 算法 在 10 秒 钟 之 内 能 够 计算 出 图 中 所 有 的 最 
短路 径 的 图 的 最 大 规模 ， 其 中 £=10V， 误差 在 10 倍 以 内 。 
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延 时 的 代价 。 对 于 各 种 图 的 模型 ， 运 行 实验 并 根据 经 验 比较 Dijkstra 算法 的 延 时 版 本 和 即时 版 本 
的 性 能 差异 。 

Johnson 算法 。 使 用 一 个 d 向 堆 实现 优先 队列 。 对 于 各 种 加 权 有 向 图 的 模型 ， 找 到 d 的 最 优 值 。 
套 汇 模型 。 实 现 一 个 模型 来 生成 随机 的 套 汇 问 题 。 目 标 是 尽量 生成 与 练习 4.4.20 中 相似 表格 。 

最 后 期 限 限制 下 的 并 行 任务 调度 模型 。 实 现 一 个 模型 来 生成 随机 的 最 后 期 限 限制 下 的 并 行 任务 
调度 问题 。 目 标 是 尽量 生成 复杂 但 可 以 解决 的 问题 。 
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我 们 通过 交流 成 串 的 字符 进行 沟通 , 所 以 无 数 的 重要 而 熟悉 的 应 用 软件 都 是 基于 字符 串 处 理 的 。 
本 章 中 ， 我 们 会 考察 一 些 经 典 算法 ， 解 决 以 下 应 用 领域 背后 的 计算 问题 。 

信息 处 理 。 当 你 根据 一 个 给 定 的 关键 字 搜 索 网 页 时 ， 就 是 在 使 用 一 个 字符 串 处 理应 用 程序 。 在 
现代 世界 中 ， 可 以 说 所 有 的 信息 都 是 用 一 系列 字符 串 表 示 的 ， 而 对 它们 进行 处 理 的 都 是 非常 重要 的 
字符 串 处 理应 用 程序 。 

基因 组 学 。 计 算 生 物 学 家 的 一 项 工作 就 是 根据 密码 子 将 DNA 转换 为 由 4 个 碱 基 (A、C、T 和 66) 
组 成 的 ( 非常 长 的 ) 字 符 串 。 近 些 年 来 人 类 构建 起 来 的 庞大 的 基因 数据 库 已 经 能 够 描述 各 种 活体 器 官 ， 
因此 字符 串 处 理 已 经 成 为 了 现在 计算 生物 学 研究 的 基石 。 

通信 系统 。 无 论 你 是 在 发 送 短信 、 电 子 邮 件 或 是 下 载 电子 书 ， 都 是 在 将 字符 串 从 一 个 地 方 传送 到 
男 一 个 地 方 。 以 此 为 目标 的 字符 串 处 理应 用 程序 是 字符 串 处 理 算法 开发 的 源 动力 。 

编程 系统 。 程 序 是 由 字符 串 组 成 的 。 编 译 器 、 解 释 器 等 其 他 能 够 将 程序 转换 为 机 器 指令 的 软件 
都 是 使 用 复杂 的 字符 串 处 理 技术 的 重要 应 用 软件 。 事 实 上 ， 所 有 的 书面 语言 都 是 由 字符 串 表 达 的 。 
另外 ， 开 发 字符 串 处 理 算法 的 另 一 个 动力 来 源 在 于 形式 语言 理论 ， 它 研究 的 是 对 不 同类 型 的 字符 串 
集合 的 描述 。 

这 几 个 非常 有 意义 的 示例 说 明了 字符 串 处 理 算法 的 重要 性 和 应 用 领域 的 多 样 性 。 694 

本 章 的 结构 如 下 : 在 介绍 了 字符 串 的 基本 性 质 以 后 ， 我 们 会 在 5.1 节 和 5.2 节 中 再 次 遇 到 第 2 |695 
章 和 第 3 章 学 过 的 排序 和 查找 API。 当 使 用 字符 串 作 为 键 时 ， 能 够 利用 键 的 特殊 性 质 的 算法 将 比 之 
前 学 习 过 的 算法 更 快 更 灵活 。 在 5.3 节 中 ,我们 会 学 习 子 字符 串 查 找 算法 ,包括 由 Knuth、Morris 
和 Pratt 发 明 的 一 个 著名 的 算法 。 在 5.4 节 中 会 介绍 正则 表达 式 ， 它 是 模式 匹配 问题 的 基础 ， 是 一 个 
一 般 化 了 的 子 字 符 串 查找 问题 , 也 是 搜索 工具 grep 的 核心 。 这 些 经 典 的 算法 的 基础 是 两 个 基本 概念 ， 
分 别 叫 做 形式 语言 和 确定 有 限 状态 自动 机 。5.5 节 主 要 介绍 了 一 个 重要 应 用 : 数据 压缩 ， 即 尝试 将 
一 个 字符 串 的 长 度 缩短 到 最 小 程度 。 


5.0.1 游戏 规则 

为 了 简洁 高 效 ， 我 们 将 使 用 Java 的 String 类 来 表示 字符 串 ， 但 我 们 将 有 意识 地 尽量 少 使 用 该 
类 的 方法 以 使 算法 能 够 适用 于 其 他 字符 串 数 据 类 型 以 及 其 他 编程 语言 。 我 们 已 经 在 1.2 节 中 详细 介 
绍 过 各 种 字符 串 ， 这 里 简要 回顾 一 下 它们 最 主要 的 性 质 。 

字符 。String 是 由 一 系列 字符 组 成 的 。 字 符 的 类 型 是 char， 可 能 有 2" 个 值 。 数 十 年 以 来 ， 
程序 员 的 注意 力 都 局 限于 7 位 ASCI 码 (请 见 表 5.5.4 ) 或 是 8 位 扩展 ASCII 码 表示 的 字符 ,但 许 
多 现代 的 应 用 程序 都 已 经 需要 使 用 16 位 Unicode 编码 了 。 

不 可 变性 。String 对 象 是 不 可 变 的 ， 因 此 可 以 将 它们 用 于 赋值 语句 、 作 为 函数 的 参数 或 是 返 
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回 值 ， 而 不 用 担心 它们 的 值 会 发 生变 化 。 
索引 。 我 们 最 常 完成 的 操作 就 是 从 某 个 字符 串 中 提取 一 个 特定 的 字符 ， 即 Java 的 String 类 
的 charAtQ 方法 。 我 们 希望 charAt(0) 方法 能 够 在 常数 时 间 内 完成 ， 就 好 像 字 符 串 是 保存 在 一 个 
char[] 数组 中 一 样 。 根 据 第 1 章 中 的 讨论 ， 这 种 期 望 是 非常 合理 的 。 
长 度 。 在 Java 中 ，String 类 型 的 
lengthQ， 方法 实现 了 获取 字符 串 的 长 
度 的 操作 。 同 样 ， 我 们 也 和 希望 1engtO) 1 本 
方法 能 够 在 常数 时 间 内 完成 ， 这 也 是 合 5 
情 合理 的 ， 尽 管 在 某 些 编程 环境 中 实现 





s.length() 


/ 
s.charAt(3) 


这 一 点 并 不 容易 。 s.substring(7, 11) 
子 字符 串 。Java 的 substring() 方 
法 实现 了 提取 特定 的 子 字符 串 的 操作 。 图 5.0.1 String 类 型 的 基本 常数 时 间 操 作 


同样 ， 我 们 也 和 希望 这 个 方法 能 够 在 常数 
时 间 内 完成 ，Java 的 标准 实现 也 做 到 了 这 一 点 。 如 果 你 还 不 熟悉 substring() 方法 和 为 什么 它 只 
需要 常数 时 间 ， 请 务必 重新 阅读 1.2 节 中 讨论 的 Java 字符 串 的 标准 实现 (请 见 表 1.2.7 和 图 1.4.10 ) 。 

字符 串 的 连接 。 在 Java 中 通过 将 一 个 字符 串 追 加 到 另 一 个 字符 串 的 末尾 创建 一 个 新 字符 串 的 操 
作 是 一 个 内 置 的 操作 (使 用 “+” 运 算 符 ) ， 所 需 的 时 间 与 结果 字符 串 的 长 度 成 正比 。 例 如 ， 我 们 
会 避免 将 字符 一 个 一 个 地 追加 到 字符 串 中 , 因为 在 Java 里 这 个 过 程 所 需 的 时 间 将 会 是 平方 级 别 的 ( 为 
此 Java 提供 了 一 个 StringBuilder 类 ， 请 见 图 5.0.1 ) 。 

字符 数组 。Java 的 String 类 显然 并 不 是 一 个 原始 数据 类 型 。Java 的 标准 实现 提供 了 刚才 提 到 
的 几 个 操作 以 供 客 户 端 程序 调用 。 但 与 之 相反 ， 我 们 将 要 学 习 的 许多 算法 都 能 够 处 理 字符 串 的 低级 
表示 ， 比 如 char 类 型 的 数组 ， 而 且 许多 字符 串 的 用 例 程 序 也 更 愿意 使 用 这 种 表示 ， 因 为 它 消耗 的 
空间 更 小 ， 访 问 所 需 的 时 间 更 少 。 在 我 们 将 要 学 习 的 几 个 算法 中 ， 将 字符 串 从 一 种 表示 转换 成 另 一 
种 表示 的 代价 甚至 比 算法 的 运行 成 本 更 高 。 如 表 5.0.1 所 示 ， 处 理 这 两 种 表示 所 用 的 代码 的 差别 是 
很 小 的 (substring(0) 方法 比较 复杂 ， 此 处 省 略 ) ， 所 以 无 论 使 用 哪 种 表示 方式 都 不 会 影响 读者 对 
算法 的 理解 。 


表 5.0.1 在 Java 中 表示 字符 串 的 两 种 方法 





操 作 字符 数组 Java 字符 串 
声明 Char[] a String s 
根据 索引 访问 字符 a[i] s.charAt(i) 
获取 字符 串 长 度 a.length s.length() 
表示 方法 转换 a=s.toCharArray() ; s=new String(a); 


理解 这 些 操作 的 运行 效率 是 理解 许多 字符 串 处 理 算法 效率 的 关键 部 分 。 并 不 是 所 有 编程 语 
言 实 现 的 String 类 都 能 有 这 样 的 性 能 。 例 如 ， 查找 子 字符 串 和 获取 字符 串 长 度 的 操作 在 C 语 
言 中 所 需 的 时 间 就 与 字符 串 中 的 字符 数量 成 正比 。 修 改 我 们 的 算法 并 使 之 适用 于 这 样 的 编程 语 
言 是 完全 可 以 的 (实现 一 个 类 似 Java 的 String 类 的 抽象 数据 类 型 ) ， 但 这 也 意味 着 不 同 的 挑 
战 和 机 遇 。 

在 正文 中 ,我 们 主要 会 使 用 String 数据 类 型 。 我 们 会 经 常 调用 通过 索引 访问 字符 串 中 的 字 
符 操 作 和 获取 字符 串 长 度 的 操作 ， 有 时 会 使 用 提取 子 字符 串 或 是 连接 字符 串 的 操作 。 我 们 还 会 在 


本 书 的 网 站 上 提供 相应 的 使 用 char 数组 的 代码 。 在 性 能 优先 的 应 用 场景 中 ， 用 例 在 这 两 种 表示 
方法 之 间 权 衡 的 常常 是 访问 字符 的 成 本 ( 在 一 般 的 Java 实现 中 ，a[i] 很 可 能 比 s.charAt(i) 要 
快 很 多 ) 。 


5.0.2 ”字母 表 
一 些 应 用 程序 可 能 会 对 字符 串 的 字母 表 作 出 限制 。 在 这 些 应 用 中 ， 可 能 常常 会 需要 一 个 API 如 
表 5.0.2 所 示 的 Alphabet 类 。 


表 5.0.2 字母 表 的 API 


public class Alphabet 


Alphabet(String s) 根据 s 中 的 字符 创建 一 张 新 的 字母 表 


char toChar(Cint index) 获取 字母 表 中 索引 位 置 的 字符 
int toIndex(char c) 获取 Cc 的 索引 ,在 0 到 R-l 之 间 
boolean contains(char c) C 在 字母 表 之 中 吗 
int RO 基数 (字母 表 中 的 字符 数量 ) 
int 1gRO 表示 一 个 索引 所 需 的 位 数 
int[] toIndices(String s) 将 s 转换 为 RR 进 制 的 整数 
String toChars(int[] indices) 将 R 进 制 的 整数 转换 为 基于 该 字母 表 的 字符 串 


这 份 API 定义 了 一 个 构造 函数 ， 它 用 一 个 含有 个 字符 的 字符 串 参 数 指定 了 字母 表 。API 定 
义 了 toChar() 方法 和 toIndex (0) 方法 来 在 字符 和 0 到 R-1 之 间 的 整 型 值 进行 转换 ( 常数 时 间 ) 。 
它 还 包含 了 contains () 方法 来 检查 给 定 的 字符 是 否 存 在 于 字母 表 中 。 方 法 RC(O) 和 19R() 用 来 获 
取 字 母 表 中 的 字符 数 以 及 表示 它们 所 需 的 位 数 。toIndices() 方法 和 toChars() 方法 能 够 将 由 
字母 表 中 的 字符 组 成 的 字符 串 与 int 数组 相互 转换 。 方 便 起 见 ， 下 面 的 表格 显示 了 各 种 内 置 的 字 
母 表 ,你 可 以 通过 类 似 Alphabet .UNICODE 的 方式 来 访问 它们 。A1phabet 的 实现 很 简单 ， 我 们 
将 它 留 作 练 习 (请 见 5.1.12 ) 。 我 们 会 在 表 5.0.3 后 面 的 框 注 “Alphabet 类 的 典型 用 例 ” 来 展示 
一 个 它 的 用 例 。 


表 5.0.3 ”标准 字母 表 


名 称 RO 1gRQO 字 符 集 
BINARY 2 1 01 
DNA 4 2 ACTG 
OCTAL 8 3 01234567 
DECIMAL 10 4 0123456789 
HEXADECIMAL 16 4 0123456789ABCDEF 
PROTEIN 20 5 ACDEFGHIKLMNPQRSTVWY 
LOWERCASE 26 学 abcdefghijklmnopqrstuvwxyz 
UPPPERCASE 26 5 ABCDEFGHIJKLMNOPQRSTUVWXYZ 
BASE64 64 6 a ee We rstuvwx 
ASCII 128 / ASCII 字符 集 
EXTENDED ASCII 256 8 扩展 ASCII 字符 集 
UNICODE16 65536 16 Unicode 字符 集 
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public class Count 
public static void main(String[] args) 


Alphabet alpha = new Alphabet(args[0]); 
int R = alpha.RO; 
int[] count = new int[R]; 


String s = StdIn.readA11(0) ; 

int N = s.lengthO; 

for (int 1 = 0 1 < N; i++) % more abra.txt 
if (alpha.contains(s.charAt(i))) ABRACADABRAI! 


count [alpha.toIndex(s.charAt(i))]++; Mijava CoUnt ABCOR REDia 


for (int c= 0; CC < Ri c++) txt 

StdOut.printinCalpha, toChar(Cc) A 5 

OUDEEC] 7 B 2 

,0 

Di 

} R=2 
Alphabet 类 的 典型 用 例 


字符 索引 数组 。 我 们 使 用 A1phabet 类 的 一 个 最 重要 的 原因 是 字符 索引 的 数组 能 够 提高 算法 的 
效率 。 在 这 个 数组 中 ， 用 字符 作为 索引 来 获取 与 之 相关 联 的 信息 。 如 果 要 使 用 Java 的 String 类 ， 
那 就 必须 使 用 一 个 大 小 为 65 536 的 数组 ; 有 了 Alphabet 类 ， 则 只 需要 使 用 一 个 字母 表 大 小 的 数组 
即 可 。 我 们 将 要 学 习 的 一 些 算法 能 够 产生 大 量 的 此 类 数组 。 在 这 种 情况 下 ， 大 小 为 655 36 的 数组 是 
不 可 接受 的 。 例 如 前 面 框 注 中 的 Count 类 ， 它 从 命令 行 接受 一 个 字符 串 并 在 标准 输出 上 打印 输入 的 
每 个 字符 串 的 出 现 频率 。Count 中 用 来 保存 出 现 频率 的 count[] 数组 就 是 一 个 字符 索引 数组 的 示例 。 
你 可 能 会 认为 数组 的 计算 有 些 繁琐 ， 但 实际 上 它 是 5.1 节 介 绍 的 一 系列 快速 排序 算法 的 基础 。 

数字 。 你 可 以 从 几 个 标准 的 Alphabet 类 的 示例 中 看 到 ， 我 们 经 常 要 处 理 字符 串 形式 的 数字 。 
toIndices() 方法 能 够 将 任意 基于 给 定 的 Alphabet 类 的 String 转换 为 一 个 R 进 制 的 数字 ， 用 一 
个 元 素 均 在 0 到 R-1 之 间 的 int[] 数组 表示 。 在 某 些 情况 下 ， 一 开始 就 进行 这 样 的 转换 可 以 使 代 
码 更 简洁 ， 因 为 任意 数字 都 能 作为 一 个 字符 串 索引 数组 中 的 索引 。 例 如 ， 如 果 我 们 已 知 输入 中 仅 含 
有 字母 表 中 的 字母 ， 那 就 可 以 将 Count 中 的 内 循环 替换 为 下 面 这 段 更 加 简洁 的 代码 : 


int[] a = alpha.toIndices(s) ; % more pi.txt 


for (Cint i = 0; 1 < Ni i++) 3141592653 

count[a[i]]++; 5897932384 

其 中 ,我 们 将 R 称 为 基数 ， 即 进 制 数 。 我 们 介绍 的 几 种 算 。 5204888327 
法 也 常常 被 称 为 “基数 ”方法 , 因为 它们 一 次 只 处 理 一 位 数 。 ”... [mn 的 100 000 位 ] 


尽管 使 用 Alphabet 这 样 的 数据 类 型 能 够 为 字符 串 处 ” % java Count 0123456789 < pi.txt 


理 算法 带 来 许多 好 处 特别 是 对 于 较 小 的 字母 表 ) ,但 是 ?9093 
本 书 中 并 没有 实现 基于 通用 字母 表 Alphabet 类 得 到 的 字 2 9908 
符 串 类 型 ， 这 是 因为 : 0 
口 大 多 数 程序 使 用 的 都 是 String 类 型 ; 5 10026 

口 将 字符 串 转化 为 索引 或 是 由 索引 得 到 字符 串 常常 ”0025 
会 落 入 内 循环 中 ， 这 会 大 幅 降 低 实现 的 性 能 ; 8 9978 


口 这 会 使 代码 更 加 复杂 ， 也 更 加 难以 理解 。 
因此 我 们 仍然 会 使 用 String 类 ， 在 代码 中 使 用 常数 R = 256 并 在 分 析 中 将 R 作为 参数 。 在 适当 
的 时 候 我 们 会 讨论 通用 字母 表 的 性 能 。 本 书 的 网 站 提供 了 基于 Alphabet 类 的 各 种 算法 的 完整 实现 。 
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5.1 字符 串 排序 


对 于 许多 排序 应 用 ， 决 定 顺序 的 键 都 是 字符 串 。 本 节 中 ,我 们 将 会 考察 能 够 利用 字符 串 的 特殊 
性 质 将 字符 串 键 排序 的 方法 ， 它 们 将 比 第 2 章 学 过 的 通用 排序 方法 效率 更 高 。 

我 们 将 学 习 两 类 完全 不 同 的 字符 串 排序 方法 。 它 们 都 是 为 程序 员 服 务 了 几 十 年 的 强大 方法 。 

第 一 类 方法 会 从 右 到 左 检 查 键 中 的 字符 。 这 种 方法 一 般 被 称 为 低位 优先 (LSD ) 的 字符 串 排序 。 
使 用 数字 ( digit ) 代替 字符 ( character ) 的 原因 要 追溯 到 相同 方法 在 各 种 数字 类 型 中 的 应 用 。 如 果 
将 一 个 字符 串 看 作 一 个 256 进 制 的 数字 ， 那 么 从 右 向 左 检查 字符 串 就 等 价 于 先 检 查 数字 的 最 低位 。 
这 种 方法 最 适合 用 于 键 的 长 度 都 相同 的 字符 串 排序 应 用 。 

第 二 类 方法 会 从 左 到 右 检查 键 中 的 字符 ， 首 先 查 看 的 是 最 高 位 的 字符 。 这 些 方 法 通常 称 为 高 位 
优先 ( MSD ) 的 字符 串 排序 一 一 本 节 将 会 学 习 两 种 此 类 算法 。 高 位 优先 的 字符 串 排 序 的 吸引 人 之 处 
在 于 ， 它 们 不 一 定 需要 检查 所 有 的 输入 就 能 够 完成 排序 。 高 位 优先 的 字符 串 排序 和 快速 排序 类 似 ， 
因为 它们 都 会 将 需要 排序 的 数组 切 分 为 独立 的 部 分 并 递归 地 用 相同 的 方法 处 理子 数组 来 完成 排序 。 
它们 的 区 别 之 处 在 于 高 位 优先 的 字符 串 排序 算法 在 切 分 时 仅 使 用 键 的 第 一 个 字符 ， 而 快速 排序 的 比 
较 则 会 涉及 键 的 全 部 。 要 学 习 的 第 一 种 方法 会 将 相同 字符 的 键 划 入 同一 个 切 分 ， 第 二 种 方法 则 总 会 
产生 三 个 切 分 ， 分 别 对 应 被 搜索 键 的 第 一 个 字符 小 于 、 等 于 或 大 于 切 分 键 的 第 一 个 字符 的 情况 。 

在 分 析 字 符 串 排序 算法 时 ， 字 母 表 的 大 小 是 一 个 重要 的 因素 。 尽 管 我 们 的 重点 是 基于 扩展 的 
ASCII 字符 集 的 字符 串 ( R=256 ) ,但 也 会 分 析 来 自 较 小 字母 表 的 字符 串 ( 例如 基因 序列 ) 和 来 自 
较 大 字母 表 的 字符 串 ( 例如 含有 65 536 个 字符 的 Unicode 字母 表 , 它 是 自然 语言 编码 的 国际 标准 ) 。 [702 


5.1.1 键 索引 计数 法 


作为 热身 ， 我 们 先 学 习 一 种 适用 于 小 整数 键 的 i ede 
DA 3 姓名 ”组 号 ( 按 组 别 排序 ) 
简单 排序 方法 。 这 种 叫做 键 索引 计数 的 方法 本 身 就 Anderson 2 Harris I 
很 实用 ， 同 时 也 是 本 节 中 将 要 学 习 的 两 三 种 字符 串 de vb 
9 1 加 
排序 算法 的 基础 。 Garcia 4 Anderson 2 
老师 在 统计 学 生 的 分 数 时 可 能 会 遇 到 以 下 数 Harris 1 Martinez 2 
据 处 理 问题 。 学 生 被 分 为 若干 组 ， 标 号 为 1、2、 SEA 3 Me 从 
Johnson 4 Robinson 2 
3 等 。 在 某 些 情况 下 ， 我 们 希望 将 全 班 同学 按 组 分 Jones "| White 2 
类 。 因 为 组 的 编号 是 较 小 的 整数 ， 使 用 键 索引 计数 Martin 1 Brown 3 
六 来 排 座 县 和 和 和 汪 的 汗 、 总 Martinez 2 Davis 3 
法 来 排序 是 很 合适 的 ， 请 见 图 S11 为 了 说 明 这 Me kG 
种 方法 ， 假 设 数组 a[] 中 的 每 个 元 素 都 保存 了 一 个 Moore Jones 3 
名 字 和 一 个 组 号 ， 其 中 组 号 在 0 到 R-1 之 间 ， 代 码 Robinson 2 Taylor 3 
a[i] .key() 会 返回 指定 学 生 的 组 号 。 这 种 方法 有 ~ RN 
4 个 步 又， 我 们 会 依次 讲解 。 Thomas 4 Johnson 4 
hi 2 h 
第 一 步 就 是 使 用 int 数组 count[] 计算 每 个 “Ah 3 hopeit 
键 出 现 的 频率 。 对 于 数组 中 的 每 个 元 素 ， 都 使 用 它 Wilson 4 Wilson 4 
的 键 访问 count[] 中 的 相应 元 素 并 将 其 加 1。 如 果 i 
键 为 r, 则 将 count[r+1] 加 1。( 为 什么 需要 加 1? 小 的 整数 


这 么 做 的 原因 到 下 一 步 你 就 会 明白 了 。) 在 图 5.1.2 图 511 活 于 使 用 键 来 引 计数 法 的 典型 情况 
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的 例子 中 ， 首 先 将 count[3] 加 1， 因 为 Anderson 在 第 二 组 中 ， 然 后 会 将 count[4] 加 2， 因 为 
Brown 和 Davis 都 在 第 三 组 中 ， 如 此 继续 。 注 意 ，count[0] 的 值 总 是 0， 在 这 个 示例 中 count[1] 
的 值 也 为 0 (第 零 组 中 没有 学 生 ) 。 
5.1.1.2 ”将 频率 转换 为 索引 

接 下 来 ， 我 们 会 使 用 count[] 来 计算 每 个 键 在 排序 结果 中 的 起 始 索 引 位 置 。 在 这 个 示例 中 ， 
因为 第 一 组 中 有 3 个 人 ， 第 二 组 中 有 5 个 人 ， 因 此 第 三 组 中 的 同学 在 排序 结果 数组 中 的 起 始 位 置 为 
8。 一 般 来 说 , 任意 给 定 的 键 的 起 始 索引 均 为 所 有 较 小 的 键 所 对 应 的 出 现 频率 之 和 。 对 于 每 个 键 值 r， 
小 于 r+1 的 键 的 频率 之 和 为 小 于 r 的 键 的 频率 之 和 加 上 count[r] ， 因 此 从 左 向 右 将 count[] 转化 
为 一 张 用 于 排序 的 索引 表 是 很 容易 的 (请 见 图 5.1.3 ) 。 


for G = 0; 1<N Tt) 
， count[a[i]. keyQO + 1]++; 





count[] 
总 是 0 生发:33 远 
人 00000 
Anderson 2 Qa 0 00 
Brown 3 O01L0Q 
Davis 3 00120 
Garcia 4 0. 相 计 记 谋 
Harris 1 业主 记 和 
Jackson 3 0 示 - 和 是: 肖 泽 
Johnson 4 和 于 证 过 
Jones 3 人 十 主将 -这 和” 
Martin 1 并 这 证 省 流 for (Int rT <0 rR ， 
ee 可 受到 证 刘 count[r+1] += count[r]; 
Miller 2 人 证 肖 迹 全 总 是 0 count[] 
Moore 渤 03342 FR 作对 迁 二 
Robinson 2 03442 站 ”人格 
Smith 4 四 -部 才 近 ,各 可 们 3 
Taylor 3 035.3 p> 3 5 
Thomas 4 03454 3 8 6 
Thompson 4 03455 4 了 14 6 
White 2 3 5 20 
Williams 3 人 0,3- 革 芭 攻 0 0 
Wilson 4 a © 组 号 小 于 3 的 总 人 数 (第 组 
一 二 在 输出 中 的 起 始 索引 ) 
总 人 数 本 
图 5.1.2 计算 出 现 频率 图 5.1.3 ”将 频率 转换 为 起 始 索引 
5.1.1.3 ”数据 分 类 


在 将 count[] 数组 转换 为 一 张 索 引 表 之 后 ， 将 所 有 元 素 (学 生 ) 移动 到 一 个 辅助 数组 aux[] 
中 以 进行 排序 。 每 个 元 素 在 aux[] 中 的 位 置 是 由 它 的 键 (组 别 ) 对 应 的 count[] 值 决定 ， 在 移动 
之 后 将 count[] 中 对 应 元 素 的 值 加 1， 以 保证 count[r] 总 是 下 一 个 键 为 r 的 元 素 在 aux[] 中 的 索 
引 位 置 。 这 个 过 程 只 需 遍历 一 遍 数 据 即 可 产生 排序 结果 ， 如 图 5.1.4 所 示 。 注 意 : 在 我 们 的 一 个 应 
用 中 ， 这 种 实现 方式 的 稳定 性 是 很 关键 的 一 一 键 相同 的 元 素 在 排序 后 会 被 聚集 到 一 起 ， 但 相对 顺序 
没有 变化 ， 请 见 图 5.1.5。 
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图 5.1.4 将 数据 分 类 〈 键 为 3 的 条 目 均 突 出 显示 ) 
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Brown 
Davis 
Garcia 
Harris 
Jackson 
Johnson 
Jones 
Martin 
Martinez 
Miller 
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Smith 
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white 
Williams 
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coubit [2] 








5.1.1.4 回 与 


因为 我 们 在 将 元 素 移 动 到 辅助 数组 的 过 程 中 完成 了 排序 ， 所 以 最 后 一 步 就 是 将 排序 的 结果 复制 


回 原 数 组 中 。 


t 
count[0] 


+ 
count[1] 


+ 
count[2] 


图 5.1.5 键 索 引 计 数 法 (分 类 阶段 ) 


上 
count[R-1] 
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命题 人 。 键 索引 计数 法 排序 NN 个 键 为 0 到 R-l 之 间 的 整数 的 元 素 需 要 访问 数组 11N+4R+1 次 。 


证 明 。 根 据 代码 可 得 ， 初 始 化 数组 会 访问 数组 NHR+1 次 。 在 第 一 次 循环 中 ，N 个 元 素 均 会 使 
计数 器 的 值 加 1( 访 问 数组 2N 次 ); 第 二 次 循环 会 进行 R 次 加 法 (访问 数组 2R 次 ); 第 三 
次 循环 会 使 计数 器 的 值 增 大 入 次 并 移动 NN 次 数据 (访问 数组 3N 次 ); 第 四 次 循环 会 移动 数 
据 入 次 (访问 数组 2N 次 ) 。 所 有 的 移动 操作 都 维护 了 等 键 元 素 的 相对 顺序 。 


键 索引 计数 法 是 一 种 对 于 小 整数 键 排序 非常 有 
效 却 常常 被 忽略 的 排序 方法 。 理 解 它 的 工作 原理 是 
理解 字符 串 排序 的 第 一 步 。 命 题 A 意味 着 键 索引 
计数 法 突破 了 MogX 的 排序 算法 运行 时 间 下 限 (之 
前 已 经 证 明 过 ) 。 它 是 怎么 做 到 的 呢 ? 2.2 节 中 的 
命题 1 证 明 的 是 所 需 的 比较 次 数 的 下 限 ( 只 能 通过 
compareTo() 访问 数据 ) 一 一 键 索引 计数 法 不 需要 
比较 ( 它 只 通过 key0Q 方法 访问 数据 ) 。 只 要 当 RR 
在 V 的 一 个 常数 因子 范围 之 内 ， 它 都 是 一 个 线性 时 
间 级 别 的 排序 方法 。 


5.1.2 ”低位 优先 的 字符 串 排 序 

我 们 学 习 的 第 一 个 字符 串 排序 算法 叫做 低位 优 
先 (LSD ) 的 字符 串 排序 。 考 虑 以 下 应 用 : 假设 有 
一 位 工程 师 架 设 了 一 个 设备 来 记录 给 定时 间 段 内 某 
条 忙碌 的 高 速 公路 上 所 有 车 辆 的 车 牌号 ， 他 希望 知 
道 总 共有 多 少 辆 不 同 的 车 辆 经 过 了 这 上段 高 速 公 
根据 2.1 节 你 可 以 知道 ,解决 这 个 问题 的 一 种 简单 
方法 就 是 将 所 有 车 牌号 排序 ， 然 后 遍历 并 找 出 所 有 
不 同 的 车 牌号 的 数量 ， 如 Dedup 所 示 ( 请 见 3.5.2.1 
节 框 注 “Dedup 过 滤器 ” ) 。 车 牌号 由 数字 和 字母 
混合 组 成 ， 因 此 一 般 都 将 它们 表示 为 字符 串 。 在 最 
简单 的 情况 中 ( 例如 图 5.1.6 所 示 的 加 利 福 尼 亚 州 
的 车 牌号 ) ， 这 些 字 符 串 的 长 度 都 是 相同 的 。 这 
种 情况 在 排序 应 用 中 很 常见 一 一 比如 电话 号 码 、 
银行 账号 、IP 地 址 等 都 是 典型 的 定 长 字符 串 。 

将 此 类 字符 串 排序 可 以 通过 键 索 引 计数 法 来 完 
成 ， 如 算法 5.1 (LSD ) 和 其 下 方 的 例子 所 示 。 如 果 
字符 串 的 长 度 均 为 柬 ， 那 就 从 右 向 左 以 每 个 位 置 的 
字符 作为 键 ， 用 键 索引 计数 法 将 字符 串 排 序 灰 遍 。 
乍 一 看 你 很 难 相信 这 种 方法 能 够 产生 一 个 有 序 的 数 


int N = a.length; 


String[] aux = new String[N]; 


int[] count = new int[R+1]; 


// 计算 出 现 频 率 

for Cint 1 =.0; 1 < N; i++) 
Count[a[i].key() + 1]++; 

// 将 频率 转换 为 索引 

for’ Cint r= 0 Te Ry T+4) 
count[r+1] += count[r]; 

// 将 元 素 分 类 

for (Cint 1 = 0; 1 < Ns 1++) 
aux[count[a[i] .key()]++] 

// 回 写 

for (Cint 1 = 0; < N; i++) 
ali] = aux[1ij: 


= a[i]; 


键 索引 计数 法 (a[] .keyQ 为 [0,R) 


之 间 的 一 个 整数 ) 
输入 排序 结 : 

4PGC938 1ICK750 
2IYE230 1ICK750 
3CI0720 10HV845 
1ICK750 10HV845 
10HV845 10HV845 
4JZY524 2IYE230 
1ICK750 2RLA629 
3CI0720 2RLA629 
10HV845 3ATW723 
10HV845 3CI0720 
2RLA629 3CI0720 
2RLA629 4]ZY524 
3ATW723 4PGC938 
一 二 一 

键 的 长 度 

均 相 同 

图 5.1.6 适 于 使 用 低位 优先 
的 字符 串 排 序 算法 
的 典型 情况 


组 一 一 事实 上 ， 除 非 键 索 引 计 数 法 是 稳定 的 ， 和 否则 这 种 方法 是 行 不 通 的 。 在 研究 以 下 证 明 时 请 记 住 


这 一 点 并 参考 后 面 的 示例 。 
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命题 B。 低 位 优先 的 字符 串 排序 算法 能 够 稳定 地 将 定 长 字符 串 排序 。 


证 明 。 册 命题 A 可知， 该 命题 完全 依赖 于 键 索 引 计数 法 的 实现 是 稳定 的 。 在 将 它们 的 最 后 1 个 字符 作 
为 键 (用 稳定 的 方式 ) 进行 排序 之 后 ， 可 以 知道 ， 任 意 两 个 键 在 数组 中 的 顺序 都 是 正确 的 ( 只 考虑 这 些 
字符 ) 。 要么 因为 它们 的 倒数 第 1 个 字符 不 同 ， 所 以 排序 方法 已 经 将 它们 的 顺序 摆 放 正确 ; 要 么 它们 的 


705 
倒数 第 i 个 字符 相同 , 所 以 由 于 排序 的 稳定 性 它们 仍然 有 序 ( 由 归纳 法 可 知 , 对 于 i 这 一 点 仍然 正确 )。 和 
算法 5.1 低位 优先 的 字符 串 排 序 
public class LSD 
{ 
public static void sort(String[] a, int W) 
{ // 通过 前 W 个 字符 将 a[] 排 序 
int N = a.length; 
int R = 256; 
String[] aux = new String[N]; 
for (int d = W-1; d >= 0; d--) 
{ // 根据 第 d 个 字符 用 键 索引 计数 法 排序 
Tnt[] count = new int[R+1]; // 计算 出 现 频率 
for (int 1 = 0; i < Ni i++) 
count[a[i] .charAt(d) + 1]++; 
for (Cint r = 0; r < Ri r++) // 将 频率 转换 为 索引 
count[r+1] += count[r]; 
for (Cint 1 = 0; 1 < Ni i++) // 将 元 素 分 类 
aux[count[a[i].charAt(d)]++] = a[i]; 
for (Cint 1 = 0; i < Ni i++) // 回 写 
a[i] = aux[i]; 
} 
} 
} 
要 将 每 个 元 素 均 为 含有 W 个 字符 的 字符 串 数组 a[] 排序 ， 要 进行 W 次 键 索 引 计数 排序 : 从 右 向 左 ， 
以 每 个 位 置 的 字符 为 键 排序 一 次 。 
输入 (W=7) d= 6 d= 5 d= 4 d= 3 d= 2 d= 1 d= 0 输出 
4PGC938 0 20 230 A629 CK750 “ATW723 1ICK750 1ICK750 
2IYE230 0 20 524 A629 CK750 :CIO0720 1ICK750 1ICK750 
3CI0720 0 23 629 C938 GC938 ‘CIO0720 JlOHV845 lOHV845 
1ICK750 0 24 629 E230 HV845 ICK750 lOHV845 lOHV845 
lOHV845 0 29 720 K750 HV845 ICK750 lOHV845 lOHV845 
4JZY524 3 29 720 K750 HV845 IYE230 2IYE230 2IYE230 
lICK750 4 30 723 0720 I0720 JZY524 2RLA629 2RLA629 
3CIO720 5 38 750 0720 IO0720 iOHV845 2RLA629 2RLA629 
JOHV845 5 45 750 V845 LA629 OHV845 3ATW723 3ATW723 
lOHV845 5 45 845 V845 LA629 ‘OHV845 3CI0720 3CI0720 
2RLA629 8 45 845 V845 TW723 PGC938 3CI0720 3CI0720 
2RLA629 9 50 845 W723 YE230 RLA629 4]ZY524 4JZY524 
3ATW723 9 50 938 Y524 ZY524 RLA629 4PGC938 4PGC938 707 
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证 明 该 命题 的 另 一 种 方法 是 向 前 看 : 如 果 有 两 个 键 ， 它 们 中 还 没有 被 
检查 过 的 字符 都 是 完全 相同 的 ， 那 么 键 的 不 同 之 处 就 仅 限 于 已 经 被 检查 过 的 
字符 。 因 为 两 个 键 已 经 被 排序 过 ， 所 以 出 于 稳定 性 它们 将 一 直 保 持 有 序 。 另 
外 ， 如 果 还 没 被 检查 过 的 部 分 是 不 同 的 ， 那么 已 经 被 检查 过 的 字符 对 于 两 者 
的 最 终 顺序 没有 意义 ， 之 后 的 某 轮 处 理会 根据 更 高 位 字符 的 不 同 修正 这 对 键 
的 顺序 。 

老式 的 卡片 打 孔 排序 机 使 用 的 就 是 低位 优先 的 基数 排序 法 。 这 类 机 器 
开发 于 20 世纪 初期 ， 比 用 计算 机 处 理 商 业 数 据 的 时 代 早 了 数 十 年 。 这 种 机 
器 能 够 根据 卡片 上 被 选 定 列 中 孔 的 模式 将 一 组 卡片 分 别 放 和 10 个 盒子 中 。 
如 果 多 个 数字 被 打 在 这 组 卡片 的 多 个 列 上 ， 操 作 员 将 所 有 卡片 排序 的 方法 
就 是 先 根据 最 右边 的 数字 排序 ， 然 后 将 所 有 卡片 按照 顺序 和 琶 好 并 再 次 根据 
倒数 第 二 个 数字 排序 ， 如 此 这 般 直 到 排序 第 一 个 数字 为 止 。 将 所 有 已 被 排 
序 的 卡片 按 顺 序 再 次 琶 放 就 是 一 个 稳定 的 过 程 ， 键 索引 计数 法 模仿 了 这 个 
过 程 。 在 整个 20 世纪 70 年 代 ， 这 个 版 本 的 低位 优先 基数 排序 法 不 仅 在 商 
业 领 域 非常 重要 ,许多 严谨 的 程序 员 ( 和 学 生 ! ) 也 使 用 它 ， 因 为 他 们 需 
要 将 程序 保存 在 打 了 和 孔 的 卡片 上 (每 张 卡片 上 一 行 ) 并 且 会 在 一 组 完整 表 
示 某 个 程序 的 卡片 的 最 后 几 列 打上 序号 ， 这 样 即使 卡片 散乱 之 后 也 能 将 它 
们 重新 按 顺 序 排列 。 这 也 是 一 种 将 扑克 牌 排序 的 简洁 方法 : 将 所 有 牌 ( 按 
大 小 ) 分 成 13 堆 ， 按 顺序 从 13 堆 排 中 抽取 同 种 花色 的 扑克 牌 ， 最 后 将 13 
堆 排 ( 按 花色 ) 变 为 4 堆 。 分 牌 的 过 程 是 稳定 的 ， 因 此 花色 中 的 牌 也 是 有 
序 的 ， 所 以 按照 花色 将 这 4 堆 牌 合并 即 可 得 到 一 副 已 排序 的 扑克 牌 ， 请 见 
图 5.1.7。 

在 许多 字符 串 排 序 的 应 用 中 (甚至 对 于 某 些 州 的 车 牌号 ) ， 键 的 长 度 
可 能 互 不 相同 。 改 进 后 的 低位 优先 的 字符 串 排 序 是 可 以 适应 这 些 情况 的 ,但 
我 们 将 这 个 任务 留 作 练 习 , 因 为 下 面 将 学 习 两 种 专门 处 理 变 长 键 排序 的 算法 。 

从 理论 上 说 ， 低 位 优先 的 字符 串 排序 的 意义 重大 ， 因 为 它 是 一 种 适用 
于 一 般 应 用 的 线性 时 间 排 序 算法 。 无 论 Y 有 多 大 ， 它 都 只 遍历 历次 数据 。 
具体 描述 如 下 。 


命题 B〈 续 ) 。 对 于 基于 RR 个 字符 的 字母 表 的 和 个 以 长 为 夯 的 字符 囊 
为 键 的 元 素 ， 低 位 优先 的 字符 串 排 序 需要 访问 ~7WN +3WR 次 数组 ， 使 
用 的 额外 空间 与 N+R 成 正比 。 


证 明 。 该 方法 等 价 于 进行 丈 轮 键 索引 计数 法 ， 但 是 aux[] 只 会 被 初始 
化 一 次 。 根 据 前 面 的 代码 和 命题 A 即 可 得 到 算法 访问 数组 和 使 用 空间 
的 总 数 。 


图 5.1.7 用 低位 优先 
的 字符 串 
排序 算法 
将 一 副 扑 
殉 牌 排序 


对 于 典型 的 应 用 ，R 远 小 于 N， 因 此 命题 B 说 明 算法 的 总 运行 时 间 与 WN 成 正比 。N 个 长 为 
WV 的 字符 串 的 输入 总 共 含 有 WN 个 字符 ， 因 此 低位 优先 的 字符 串 排序 的 运行 时 间 与 输入 的 规模 成 


正比 。 
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5.1.3 高 位 优先 的 字符 串 排 序 

要 实现 一 个 通用 的 字符 串 排序 算法 (字符 串 的 长 度 不 一 定 相 同 ) ， 我 们 应 该 考虑 从 左 向 右 遍 历 
所 有 字符 。 我 们 知道 ， 以 a 开头 的 字符 串 应 该 排 在 以 b 开头 的 字符 串 前 面 ， 等 等 。 实 现 这 种 思想 的 
。] sk shA 一 个 很 自然 方法 就 是 一 种 递归 算法 , 被 称 为 高 位 优先 ( MSD ) 的 字符 串 排序 ， 
v6 4] 42 请 见 图 5.1.8。 首先 用 键 索 引 计 数 法 将 所 有 字符 串 按照 首 字母 排序 , 然后 ( 弟 
vA m5 “4 归 地 ) 再 将 每 个 首 字母 所 对 应 的 子 数组 排序 (忽略 首 字母 ， 因 为 每 一 类 中 
s*K ”42 45 的 所 有 字符 串 的 首 字母 都 是 相同 的 ) 。 和 快速 排序 一 样 ， 高 位 优先 的 字符 
*Q “3 “7 申 排序 会 将 数组 切 分 为 能 够 独立 排序 的 子 数组 来 完成 排序 任务 ， 但 它 的 切 
4] 4h6 “9 分 会 为 每 个 首 字母 得 到 一 个 子 数组 ,而 不 是 像 快速 排序 中 那样 产生 固定 的 
$9 8 两 个 或 三 个 切 分 ， 请 见 图 5.1.9。 
v9 410 aQ 5.1.3.1 ”对 字符 串 末 尾 的 约定 
< 在 高 位 优先 的 字符 串 排序 算法 中 , 要 特别 注意 到 达 字 符 串 未 尾 的 情况 。 
*4 v4 v3 在 排序 中 , 合理 的 做 法 是 将 所 有 字符 都 已 被 检查 过 的 字符 串 所 在 的 子 数组 排 
这 汪汪 昌 二 在 所 有 子 数组 的 前 面 , 这 样 就 不 需要 递归 地 将 该 子 数组 排序 , 请 见 图 5.1.10。 
v3 v7 wv6 为 了 简化 这 两 步 计算 , 我 们 使 用 了 一 个 接受 两 个 参数 的 私有 方法 toCharO) 
“2 v4 Ys 来 将 字符 串 中 字符 索引 转化 为 数组 索引 ， 当 指定 的 位 置 超过 了 字符 串 的 末 
*9 v0 v9 。 尾 时 该 方法 返回 1。 然后 将 所 有 返回 值 加 1， 得 到 一 个 非 负 的 int 值 并 用 
44 v2 w] 它 作为 count[] 的 索引 。 这 种 转换 意味 着 字符 串 中 的 每 个 字符 都 可 能 产生 


4 i R+1 中 不 同 的 值 : 0 表示 字 
RR 以 首 字母 排序 来 将 递归 地 排序 子 数 
和 数组 切 分 为 子 数组 组 (忽略 首 字母 )  ” 符 串 的 结尾 ，1 表示 字母 表 


的 第 一 个 字符 ,2 表示 字母 
表 的 第 二 个 字符 ， 等 等 。 因 
一 为 键 索引 计数 法 本 来 就 需要 
i 一 个 额外 的 位 置 ， 所 以 使 用 
1 代码 int count[] = new 
int[R+2]; 创建 记录 统计 频 708 
率 的 数组 (将 所 有 值 设 为 0)。 |710 
注意 : 某 些 编程 语言 ， 特 别 
是 C 和 Ct+, 已 经 约定 了 字 





和 i 符 串 结束 的 表示 方法 ， 因 此 

sa 对 于 这 类 语言 本 节 的 代码 需 

o2 44 +48 要 进行 相应 的 调整 。 

时 5D 冰 2 员 9 

vK +7 +10 和 有 了 这 些 预备 知识 ， 就 

人 会 知道 算法 5.2 实现 高 位 优 

+8 +8 4K 先 的 字符 串 排序 算法 所 需 的 

图 5.1.8 用 高 位 优先 新 代码 其 实 并 不 多 。 增 加 了 
的 字符 串 排 : : 一 个 条 件 语句 以 在 子 数组 较 
序 算法 将 一 小 时 切换 插入 排序 ，( 这 里 


副 扑克 牌 排 
序 图 5.1.9 高 位 优先 的 字符 串 排序 的 示意 图 使 用 的 是 一 个 特殊 版 本 的 插 
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和 排序， 我 们 会 在 稍 后 考察 。 ) 还 添加 了 一 个 键 索引 计数 法 的 循 
环 来 完成 递归 调用 。 从 表 5.1.1 可 知 ，count[] 数组 中 的 值 (在 
统计 频率 、 转 换 为 索引 并 将 数据 分 类 之 后 ) 正 是 将 每 个 字符 所 对 
应 的 子 数组 (递归 地 ) 排序 时 所 需要 的 值 。 


5.1.3.2 ”指定 的 字母 表 

高 位 优先 的 字符 串 排序 的 成 本 与 字母 表 中 的 字符 数量 有 很 大 
关系 。 我 们 可 以 很 容易 地 令 排 序 算法 修 接受 一 个 Alphabet 对 象 
作为 参数 ， 以 改进 基于 较 小 的 字母 表 的 字符 串 排序 程序 的 性 能 。 
完成 这 一 点 需要 进行 如 下 改动 : 

口 在 构造 函数 中 用 一 个 alpha 对 象 保 存 字母 表 ; 

口 在 构造 函数 中 将 R 设 为 alpha.RO; 

口 在 charAtO) 方 法 中 将 s.charAt(d) 替换 为 alpha. 

toIndex(s.charAt(d)), 


表 5.1.1 











第 d 个 字符 排序 的 
完成 阶段 









频率 统计 





将 频率 转化 为 索引 “| 的 起 从 索引 的 起 始 索 引 





输入 

she 

sells 
seashells 
by 

the 
seashore 


surely 
seashells 


排序 结果 
are 

by 
seashells 
seashells 
seashore 
sells 
sells 

she 

she 
shells 
surely 
the 

the 


图 5.1.10 适 于 使 用 高 位 优先 
的 字符 串 排序 的 典 


型 情况 


高 位 优先 的 字符 串 排序 中 count[] 数组 的 意义 
Sort 的 值 


rl |r 之] rR | 


| IT 2 的 字符 串 
| 


长 度 为 d 的 字符 串 的 子 数组 a 未 使 用 


r=R+l1 












第 d 个 字符 的 索引 值 为 r 的 字符 串 的 子 数组 的 起 始 索 3 


1+ 长 度 为 d 的 字符 串 的 子 数 | 1+ 第 d 个 字符 串 的 索引 值 是 r-1 的 字符 串 的 子 | 未 使 用 
组 的 结束 索引 数组 的 结束 索引 





未 使 用 





在 本 节 的 示例 中 ， 字 符 串 都 是 由 小 写字 母 组 成 的 。 扩 展 低位 优先 的 字符 串 排 序 算法 以 支持 这 种 
特性 也 很 简单 ， 但 带 来 的 性 能 提升 一 般 比 高 位 优先 的 字符 串 排序 小 得 多 。 


算法 5.2 ”高 位 优先 的 字符 串 排序 


public class MSD 

{ 
private static int R = 256; 
private static final int M = 15; 
private static String[] aux; 
private static int charAt(String s, int d) 


// 基数 
// 小 数组 的 切换 阅 值 


// 数据 分 类 的 辅助 数组 


{ if (d < s.length()) return s.charAt(d); else return -1; } 


public static void sort(String[] a) 
int N = a.length; 
aux = new String[N]; 
sort(a, 0, N-1, 0); 

} 


private static void sort(String[] a, int lo, int hi, 
{ // 以 第 d 个 字符 为 键 将 a[10] 至 a[h 记 排序 
if (hi <= lo + M) 


{ Insertion.sort(a, lo, hi, d); return; } 


int dd) 


} 
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int[] count = new int[R+2]; // 计算 频率 
for (Cint i1 = lo; 1 <= hi; i++) 


count[charAt(a[i], d) + 2]++; 


for (int r = 0; r < R+l; r++) // 将 频率 转换 为 索引 


count[r+1] += count[r]; 


for (int 1 = 1o; i <= hi; i++) // 数据 分 类 
aux[count[charAt(a[i], d) + 1]++] = a[i]; 


for (Cint i = lo; i <= hi; i++) // 回 写 


a[i] = aux[i - 1o]; 
// 递归 的 以 每 个 字符 为 键 进行 排序 
For int re On r < R; jd 
sort(a, lo + count[r], lo + count[r+1] - 1, d+1); 


在 将 一 个 字符 串 数组 a[] 排序 时 ， 首 先 根据 它们 的 首 字 母 用 键 索引 计数 法 进行 排序 ， 然 后 ( 递归 地 ) 


根据 子 数组 中 的 字符 串 的 首 字母 将 子 数 组 排序 。 


~] 


算法 5.2 中 的 代码 的 简洁 令 人 刮目相看 ， 它 隐藏 了 一 些 非常 复杂 的 计算 。 花 些 时 间 深 入 研究 图 
5.1.11 所 示 的 算法 顶层 调用 轨迹 和 图 5.1.12 中 递归 调用 的 轨迹 以 确保 你 理解 了 这 个 算法 的 精妙 之 处 ， 
这 些 时 间 不 会 白花 。 在 这 段 轨迹 中 ， 小 数组 的 插入 排序 切换 阔 值 (M ) 为 0， 因此 你 可 以 看 到 完整 
的 排序 过 程 。 在 这 个 例子 中 ， 字 符 串 来 自 于 Alphabet ,LOWERCASE， 其 中 R=26。 一 般 的 应 用 使 用 
的 大 都 是 R=256 的 Alphabet.EXTENDED_ASCII， 或 是 R=65 536 的 Alphabet.UNICODE。 对 于 较 大 


的 字母 表 ， 


高 位 优先 的 排序 算法 虽然 简单 但 可 能 会 很 危险 一 一 如 果 使 用 不 当 ， 它 可 能 会 消耗 令 人 无 


法 承受 的 时 间 和 空间 。 在 仔细 研究 它 的 性 能 特点 之 前 ， 我 们 要 先 讨论 三 个 在 任何 应 用 中 都 必须 解决 
的 重要 的 问题 ( 这 些 问题 曾 在 第 2 章 中 讨论 过 ) 。 


Ag a ra Tn nu 


使 用 键 索引 计数 法 对 首 字母 排序 递归 地 将 子 数组 排序 
记录 频率 。 换 为 索引 人 数据 分 类 结束 后 的 索引 
0 sort(a, 0, 0, 1); 
a a 0 a ai 工 sort(a，1， 1. 1): Ce 
b 1 b 1 b b 2 
1 s y 
s ea 
s eashells 
s eashells 
S ells 
S ells 
s he 
s he 
s hells 
s hore 
t 3 sort(a, 2, 11, 1); urely 
§ 0 人 这 * t a sort(a, 12, 13, 1)» 
LE: s 的 子 数组 的 开始 索引 he 


5 的 子 数组 的 结束 索引 +1 


图 5.1.11 高 位 优先 的 字符 串 排 序 : sort(a，0，14，0) 的 顶层 轨迹 
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图 5.1.12 ”高 位 优先 的 字符 串 排序 的 递归 调用 轨迹 〈 小 数组 不 会 切换 到 插入 排序 ， 大 小 为 0 和 ! 的 子 数 
组 已 被 省 略 ) 


5.1.3.3 ”小 型 子 数组 

高 位 优先 的 字符 串 排序 的 基本 思想 是 很 有 效 的 ， 在 一 般 的 应 用 中 ， 只 需 检 查 若 干 个 字符 就 能 完 
成 所 有 字符 串 的 排序 。 换 句 话说， 这 种 方法 能 够 快速 地 将 需要 排序 的 数组 切 分 为 较 小 的 数组 。 但 这 
种 切 分 也 是 一 把 双 刃 剑 : 我 们 肯定 会 需要 处 理 大 量 微 型 数组 ， 因 此 必须 快速 处 理 它们 。 小 型 子 数组 
对 于 高 位 优先 的 字符 囊 排 序 的 性 能 至 关 重 要 。 我 们 在 其 他 递归 排序 算法 中 也 遇 到 过 这 种 情况 ( 快速 
排序 和 归并 排序 ) ， 但 小 数组 对 于 高 位 优先 的 字符 串 排序 的 影响 尤其 强烈 。 例 如 ， 假 设 你 需要 将 数 
百 万 个 不 同 的 ASCII 字符 串 ( R=256 ) 排序 且 不 会 对 小 数组 进行 特殊 处 理 。 每 个 字符 串 最 终 都 会 产 
生 一 个 只 含有 它 自己 的 子 数 组 ， 因 此 你 需要 将 数 百 万 个 大 小 为 1 的 子 数组 排序 。 但 每 次 排序 都 需要 
将 count[] 的 258 个 元 素 初始 化 为 0 并 将 它们 都 转化 为 索引 。 这 种 代价 比 排序 的 其 他 部 分 要 高 很 多 。 
在 使 用 Unicode 时 ( R=655 36 ) ， 排 序 过 程 可 能 会 减 慢 上 千 倍 。 事 实 上 ， 正 因为 如 此 ， 许 多 使 用 排 
序 但 考虑 不 周 的 程序 在 从 ASCII 切换 到 Unicode 后 运行 时 间 从 几 分 钟 暴涨 到 几 个 小 时 。 然 而 ， 将 小 
数组 切换 到 插入 排序 对 于 高 位 优先 的 字符 串 排序 算法 是 必须 的 。 为 了 避免 重复 检查 已 知 相同 的 字符 
所 带 来 的 成 本 ， 我 们 使 用 了 后 面 框 注 “对 前 d 个 字符 均 相 同 的 字符 串 执行 插入 排序 ”中 给 出 的 一 个 
版 本 的 插入 排序 。 它 接受 一 个 额外 的 参数 d 并 假设 所 有 需要 排序 的 字符 串 的 前 d 个 字符 都 是 相同 的 。 
这 段 代码 的 效率 取决 于 substringQ 方法 所 需 的 时 间 是 否 为 常数 。 和 快速 排序 以 及 归并 排序 一 样 ， 


一 个 较 小 的 转换 阔 值 就 能 将 性 能 提高 很 多 ， 但 对 于 高 100%% 
位 优先 的 字符 串 排序 算法 它 节约 的 时 间 是 非常 可 观 的 。 
图 5.1.13 显示 了 一 个 典型 应 用 中 的 实验 结果 。 在 长 度 
小 于 等 于 10 时 将 子 数组 切换 到 插入 排序 能 够 将 运行 时 
间 降 低 为 原来 的 十 分 之 一 。 
5.1.3.4 ”等 值 键 

高 位 优先 的 字符 串 排 序 中 的 第 二 个 陷阱 是 ， 对 于 
含有 大 量 等 值 键 的 子 数组 的 排序 会 较 慢 。 如 果 相 同 的 
子 字符 串 出 现 得 过 多 , 切换 排序 方法 条 件 将 不 会 出 现 ， 
那么 递归 方法 就 会 检查 所 有 相同 键 中 的 每 一 个 字符 。 
另外 ， 键 索引 计数 法 无 法 有 效 判断 字符 串 中 的 字符 是 
否 全 部 相同 : 它 不 仅 需 要 检查 每 个 字符 和 移动 每 个 字 
符 串 ， 还 需要 初始 化 所 有 的 频率 统计 并 将 它们 转换 为 
索引 等 。 因 此 ， 高 位 优先 的 字符 串 排序 的 最 坏 情况 就 
是 所 有 的 键 均 相 同 。 大 量 含 有 相同 前 级 的 键 也 会 产生 


50% 一 


D5 — 


运行 时 间 是 无 切换 版 本 运行 时 间 的 百分比 


10% 一 
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N=100 000 
AN 个 随机 的 加 利 

福 尼 亚 州 车 牌号 

每 个 点 进行 100 次 实验 


同样 的 问题 ， 这 在 一 般 的 应 用 场景 中 是 很 常见 的 。 0 10 切换 国人 » [5 
5.1.3.5 ”额外 空间 图 5.1.13 高 位 优先 的 字符 牛排 序 算 法 中 
为 了 进行 切 分 ， 高 位 优先 的 算法 使 用 了 两 个 辅助 ” 切 扫 小 型 子 数 组 的 排序 方法 的 实 


数组 : 一 个 用 来 将 数据 分 类 的 临时 数组 (aux[] ) 和 际 效果 


一 个 用 来 保存 将 会 被 转化 为 切 分 索引 的 统计 频率 的 数 


组 (count[] ) 。aux[] 的 大 小 为 N 且 可 以 在 递归 方法 sortQ 外 创建 。 如 果 牺 牲 稳定 性 ， 则 可 以 去 
掉 aux[] 数组 (请 见 练习 5.1.17 ) ,但 它 并 不 是 高 位 优先 的 字符 串 排序 算法 在 实际 应 用 中 所 关注 的 
内 容 。 相 反 ，count[] 所 需 的 空间 才 是 主要 问题 ( 因为 它 不 能 在 递归 方法 sortQ 〇 之 外 创建 ) ， 如 下 


文 的 命题 D 所 述 。 


public static void sort(String[] a, int lo, int hi, int d) 


{ // 对 前 d 个 字符 排序 ， 从 a[10] 到 a[hi] 


for (int i = 1o0; i <= hi; i++) 


for Cint j = i; j > lo && less(a[j], a[j-1], d); j--) 


exch(as j; 1-D; 
} 


private static boolean less(String v, String w, int d) 
{ return v.substring(d) .compareTo(Cw.substring(d)) < 0; 


对 前 d 个 字符 均 相 同 的 字符 串 执 行 插 入 排序 
5.1.3.6 ”随机 字符 串 模型 


} 


为 了 研究 高 位 优先 的 字符 串 排序 算法 的 性 能 ， 我 们 使 用 了 一 个 随机 字符 串 模 型 ， 其 中 每 个 字符 串 
都 (独立 的 ) 由 随机 字符 组 成 ， 长 度 没有 限制 。 这 实际 上 排除 了 出 现 较 长 的 等 值 键 的 情况 ， 因 为 它们 
出 现 的 几率 非常 小 ,高 位 优先 的 字符 串 排序 算法 在 这 个 模型 中 的 表现 和 随机 定 长 键 模型 中 的 表现 类 似 ， 
也 和 它 在 一 般 的 真实 数据 中 的 性 能 类 似 。 我 们 将 会 看 到 ， 在 这 三 种 情况 中 ， 高 位 优先 的 字符 串 排序 算 


法 通常 都 只 需要 检查 每 个 键 开 头 的 若干 个 字符 即 可 。 
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5.1.3.7 ”性 能 
高 位 优先 的 字符 串 排 序 算法 的 性 能 取决 于 数据 。 对 非 随机 字符 串 


门 主要 关注 和 顺序 ;区 随机 字符 电 。”” 且 有 重复 ( 接 ”最 坏 情况 
于 基于 比较 的 方法 ， 我 们 主要 关注 的 是 键 的 顺序 ; 对 于 re 


高 位 优先 的 字符 串 排序 算法 ， 键 的 顺序 并 不 重要 ， 我 们 和 TDNBS3 
关注 的 是 键 所 对 应 的 值 ， 请 见 图 5.1.14。 1H b 1DNB377 
口 对 于 随机 输入 ， 高 位 优先 的 字符 串 排序 算法 只 1R 和 lDNB377 
2H seashells 1DNB377 
会 检查 足以 区 别 字符 串 所 需 的 字符 。 相 对 于 输 。 57 a 
和 人 数据 中 的 字符 总 数 ， 算 法 的 运行 时 间 是 亚 线 2X sells 1DNB377 
性 的 ( 它 只 会 检查 输入 字符 中 的 一 小 部 分 ) 。 0 i 本 
口 对 于 非 随机 的 输入 ， 高 位 优先 的 字符 串 排序 算 3I she 1DNB377 
法 可 能 仍然 是 亚 线性 的 ， 但 需要 检查 的 字符 可 3KNA3 shel lDNB377 
能 比 随机 情况 下 更 多 。 特 别 是 对 于 相等 的 键 ， 了 a oad 
它 需 要 检查 它们 的 所 有 字符 ， 所 以 当 存 在 大 量 4Q the 1DNB377 
等 值 键 时 它 所 需 的 运行 时 间 是 接近 线性 的 。 4YH the IDNB377 
口 在 最 坏 情 况 下 ， 高 位 优先 的 字符 串 排序 算法 会 


5.1.14 高 位 优先 的 字符 串 排 序 算法 了 
检查 所 有 键 中 的 所 有 字符 ， 所 以 相对 于 数据 中 。 图 5 剖 位 从 先 册 字符 电 排 序 算法 的 


的 所 有 字符 它 所 需 的 运行 时 间 是 线性 的 ( 和 低 
位 优先 的 字符 串 排序 算法 相同 ) 。 最 坏 情况 下 
的 输入 中 所 有 的 字符 串 均 相 同 。 
某 些 应 用 程序 所 处 理 的 键 和 随机 字符 串 模 型 能 很 好 匹配 ， 而 有 些 则 含有 很 多 重复 的 键 或 是 较 长 
的 公共 前 级 ， 这 种 情况 下 排序 所 需 的 时 间 和 最 坏 情况 接近 。 比 如 ， 在 我 们 的 车 牌号 处 理应 用 程序 中 
这 两 种 极端 情况 都 可 能 出 现 : 如 果 工 程 师 选 取 一 条 繁忙 的 州 际 公路 一 小 时 的 数据 ， 那 么 数据 中 的 重 
复 项 会 很 少 ， 符 合 随机 模型 ; 如果 取 的 是 一 条 乡间 小 道 一 个 星期 的 数据 ， 那 么 数据 中 肯定 会 有 大 量 
的 重复 项 ， 算 法 的 性 能 将 会 和 最 坏 情况 类 似 。 
作为 提示 以 及 对 为 何 该 证 明 已 经 超出 了 本 书 的 范围 的 说 明 ， 我 在 这 里 提醒 大 家 注意 ， 命 题 的 结 
论 和 键 的 长 度 是 无 关 的 。 事 实 上 ， 随 机 字符 串 模 型 所 允许 的 键 长 接近 无 限 。 两 个 键 之 间 有 任意 多 的 
字符 相 吻 合 ， 这 个 可 能 性 不 是 零 ， 但 这 个 可 能 性 非常 小 ， 在 估计 性 能 时 可 以 将 其 忽略 。 
由 以 上 讨论 可 以 知道 ， 检 查 的 字符 数量 并 不 是 高 位 优先 的 字符 串 排序 算法 性 能 的 全 部 。 我 们 还 
需要 考虑 统计 字符 的 出 现 频率 以 及 将 频率 转化 为 索引 所 需要 的 时 间 和 空间 。 


命题 C。 要 将 基于 大 小 为 RR 的 字母 表 的 和 个 字符 串 排 序 ， 高 位 优先 的 字符 串 排 序 算法 平均 需要 
检查 NlogrN 个 字符 。 


简略 证 明 。 我 们 希望 子 数组 的 大 小 几乎 都 是 相同 的 ， 因 此 递 推 关系 Cy=RCwrtN 可 以 近似 地 描 
述 算法 的 性 能 并 得 到 命题 所 述 的 结果 。 它 也 是 第 2 章 中 快速 排序 性 能 证 明 的 一 般 化 证 明 。 另 一 
方面 ， 这 种 描述 并 不 完全 准确 ， 因 为 WR 并 不 一 定 能 够 得 到 整数 ， 子 数组 的 大 小 相同 也 仅 是 平 
均 而 言 ( 而 且 在 现实 中 键 的 长 度 是 有 限 的 ) 。 这 些 因素 对 高 位 优先 的 字符 串 排序 算法 的 影响 比 
对 标准 快速 排序 算法 的 影响 小 ， 因 此 算法 运行 时 间 中 的 最 大 项 就 是 这 个 递 推 关系 的 答案 。 这 个 
间 题 的 详细 证 明 是 算法 分 析 中 的 经 典 例子 ， 最早 由 Knuth 完成 于 20 世纪 70 年 代 早 期 。 
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命题 D。 要 将 基于 大 小 为 RR 的 字母 表 的 NN 个 字符 串 排 序 ， 高 位 优先 的 字符 串 排序 算法 访问 数 
组 的 次 数 在 8N+3R 到 7wN+3wR 之 间 ， 其 中 w 是 字符 串 的 平均 长 度 。 


证 明 。 由 代码 、 命 题 A 和 命题 B 可 得 ,在 最 好 情况 下 高 位 优先 的 排序 算法 只 需 遍 历数 据 一 轮 ; 
而 在 最 坏 情 况 下 ， 它 和 低位 优先 的 字符 串 排 序 算法 的 性 能 类 似 。 


当 NW 较 小 时 ，R 是 主要 因子 。 尽 管 对 总 成 本 的 精确 分 析 是 困难 而 复杂 的 ， 但 你 只 需 考虑 无 重复 
键 的 情况 下 所 有 较 小 的 子 数 组 就 可 以 估计 出 该 成 本 的 实际 效果 。 在 不 为 较 小 的 子 数组 切换 排序 方法 
的 情况 下 ， 每 个 键 都 会 产生 一 个 单独 的 子 数组 ， 因 此 仅 为 处 理 这 些 子 数组 就 需要 访问 NR 次 数组 。 
如 果 为 小 于 M 的 数组 切换 排序 方法 ,将 会 有 N/M 个 大 小 为 M 的 子 数组 ， 因 此 等 于 是 在 用 NA14 次 
比较 换取 NR/M 次 数组 访问 ， 这 说 明 应 该 选择 与 R 的 平方 根 成 正比 的 M。 


命题 D〈 续 ) 。 要 将 基于 大 小 为 RR 的 字母 表 的 入 个 字符 串 排 序 ， 最 坏 情况 下 高 位 优先 的 字符 曲 
排序 算法 所 需 的 空间 与 情 乘 以 最 长 的 字符 串 的 长 度 之 积 成 正比 (再 加 上 NN) 。 


证 明 。count[] 数组 必须 在 sort() 中 创建 ， 因 此 空间 需求 的 总 量 与 尺 和 递归 的 深度 之 积 成 
正比 (再 加 上 辅助 数组 的 大 小 入 ) 。 准 确 地 说 ,递归 的 深度 即 最 长 字符 串 的 长 度 ， 也 就 是 两 
个 或 多 个 被 排序 的 字符 串 的 公共 前 组 的 长 度 。 


正如 刚才 所 讨论 的 ， 相 等 的 键 使 得 递归 的 深度 和 键 的 长 度 成 正比 。 由 命题 D 马上 可 以 推论 
出 ， 在 用 高 位 优先 的 字符 串 排 序 算法 将 基于 大 型 字母 表 的 长 字符 串 排 序 时 ， 它 很 有 可 能 消耗 过 多 的 
时 间或 者 空间 ， 特 别 是 在 已 知 可 能 出 现 较 长 的 等 值 键 的 情况 下 。 例 如 ， 如 果 使 用 的 是 Alphabet . 
UNICODE 有 目 某 些 字符 串 中 公共 前 级 的 长 度 超过 1000 个 字符 ， 那 么 MSD. sort0 将 需要 为 超过 6500 
万 个 计数 器 元 素 分 配 空间 ! 

在 将 长 字符 串 排 序 时 ， 令 高 位 优先 的 字符 串 排 序 算 法 发 挥 出 最 大 效率 的 主要 挑战 在 于 处 理 数据 中 
的 非 随 机 因素 。 一 般 来 说 ， 一 些 键 可 能 存在 较 长 的 公共 部 分 ， 或 者 部 分 键 的 取 值 范围 有 限 。 比 如 ,在 
处 理学 生 信息 的 应 用 程序 中 , 数据 的 键 可 能 是 毕业 年 份 (4 个 字 节 , 但 只 有 4 种 可 能 的 值 ) , 州 名 (可 
能 需要 10 个 字 节 ， 但 只 有 50 种 可 能 的 值 ) ， 性 别 (1 个 字 节 ,2 种 值 ) 以 及 学 生 的 姓名 ( 和 随机 字 
符 串 最 接近 ， 但 有 可 能 很 长 ， 字 母 出 现 频率 的 分 布 并 不 均匀 上 且 当 该 栏 长 度 固定 时 字符 串 的 末尾 会 被 添 
加 许多 空格 ) 。 这 些 限制 使 得 高 位 优先 的 字符 串 排 序 算法 会 产生 许多 空子 数组 。 下 面 我 们 将 学 习 一 种 
能 够 漂亮 地 解决 这 个 问题 的 算法 。 


5.1.4 ”三 向 字符 串 快速 排序 

我 们 也 可 以 根据 高 位 优先 的 字符 串 排 序 算法 改进 快速 排序 ， 根 据 键 的 首 字母 进行 三 向 切 分 ， 仅 
在 中 间 子 数组 中 的 下 一 个 字符 ( 因为 键 的 首 字母 都 与 切 分 字符 相等 ) 继续 递归 排序 。 这 个 算法 的 实 
现 并 不 困难 ， 请 见 算法 5.3: 我 们 只 是 为 算法 2.5 中 的 递归 方法 添加 了 一 个 参数 来 保存 当前 的 切 分 字 
母 并 令 三 向 切 分 的 代码 使 用 该 字符 ， 然 后 递归 适当 修正 方法 ， 请 见 图 5.1.15。 

尽管 排序 的 方式 有 所 不 同 ,但 三 向 字符 串 快速 排序 根据 的 仍然 是 键 的 首 字 母 并 使 用 递归 方法 将 
其 余部 分 的 键 排序 。 对 于 字符 串 的 排序 ， 这 个 方法 比 普通 的 快速 排序 和 高 位 优先 的 字符 串 排序 更 友 
好 。 实 际 上 ， 它 就 是 这 两 种 算法 的 结合 。 


be | 
SS 
Co 
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三 向 字符 串 快速 排序 只 将 数组 切 分 为 三 部 分 ， 因 此 当 相 应 的 高 位 优先 的 字符 串 排序 产生 的 非 空 
切 分 较 多 时 ， 它 需要 移动 的 数据 量 就 会 变 大 ， 因 为 它 需 要 进行 一 系列 的 三 向 切 分 才能 取得 多 向 切 分 
的 效果 。 但 是 ， 高 位 优先 的 字符 串 排序 可 能 会 创建 大 量 〈 空 ) 子 数 组 ， 而 三 向 字符 串 快速 排序 的 切 
分 总 是 只 有 三 个 。 因 此 三 向 字符 串 快速 排序 能 够 很 好 处 理 等 值 刍 、 有 较 长 公共 前 缀 的 键 、 取 值 范 围 
较 小 的 键 和 小 数组 一 一 所 有 高 位 优先 的 字符 串 排 序 算法 不 善 长 的 各 种 情况 ， 请 见 图 5.1.16。 特 别 重 
要 的 一 点 是 ， 这 种 切 分 方法 能 够 适应 键 的 不 同 部 分 的 不 同 结构 。 和 快速 排序 一 样 ， 三 向 字符 串 快速 
排序 也 不 需要 额外 的 空间 ( 递归 所 需 的 隐 式 栈 除外 ), 这 是 它 相 比 高 位 优先 的 字符 串 排序 的 一 大 优点 ， 
后 者 在 统计 频率 和 使 用 辅助 数组 时 都 需要 空间 。 

使 用 首 字 母 将 数据 切 递归 地 将 子 数组 排 


分 芍 “ 当 序 (在 “等 于 于 
于 和 和 “大 于 ”的 三 数组 中 忽略 首 字母 ) 











输入 排序 结果 
edu.princeton.cs com.adobe 
com.apple com.apple 
edu.princeton.cs com.cnn 
com.cnn com.google 
站 如 AN 

com.google 较 长 的 公 edu.princeton.cs 

共 前 组 
edu.uva.cs edu.princeton.cs 
edu.princeton.cs edu.princeton.cs 
edu.princeton.cs .www edu.princeton.cs .ww 
edu.uva.cs edu.princeton.ee 
edu.uva.cs |- 一 一 重复 刍 edu.uva.cs 
edu.uva.cs edu.uva.cs 
com.adobe edu.uva.cs 
edu.princeton.ee edu.uva.cs 

图 5.1.15 三 向 字符 串 快速 排序 的 示意 图 图 5.1.16 适 于 使 用 三 向 字符 串 快速 排序 的 典型 情况 


图 5.1.17 显示 了 Quick3string 在 处 理 样 例 数据 时 产生 的 所 有 递归 调用 。 每 个 子 数组 都 正好 只 
用 了 三 个 递归 调用 就 完成 了 排序 ， 只 是 省 略 了 中 间 子 数组 中 到 达 ( 相等 的 ) 字符 串 的 结尾 时 的 递归 
调用 。 

和 以 前 一 样 ， 在 实际 应 用 中 下 列 对 算法 5.3 的 标准 改进 都 是 很 值得 考虑 的 。 
5.1.4.1 小 型 子 数 组 

在 所 有 的 递归 算法 中 ， 我 们 都 可 以 通过 对 小 型 子 数 组 进行 特殊 处 理 来 提高 效率 。 这 里 使 用 的 是 
5.1.2.3 框 注 中 的 “对 前 d 个 字符 均 相 同 的 字符 串 执行 插入 排序 ”中 的 插入 排序， 它 能 够 跳 过 已 知 相 
等 的 字符 。 这 项 修改 带 来 的 改进 会 很 明显 ， 尽 管 它 在 三 向 字符 串 排序 的 重要 性 远 不 如 它 在 高 位 优先 
的 字符 串 排序 的 重要 性 高 。 
5.1.4.2 有限 的 字母 表 

为 了 处 理 特殊 的 字母 表 ， 可 以 为 所 有 方法 添加 一 个 Alphabet 类 型 的 参数 alpha 并 在 charAt O) 
方法 中 将 s.charAt(d) 替换 为 alpha.toIndex(s.charAt(d))。 在 这 里 ， 这 么 做 并 不 能 得 到 什么 收 


3S.] 


益 ， 相 反 添 加 这 段 代码 可 能 会 大 幅 降低 算法 的 运行 速度 ， 因 为 它 在 内 循环 之 中 。 











灰色 方 框 表 示 空 子 数 组 
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图 5.1.7 


算法 5.3 三 向 字符 串 快速 排序 
public class Quick3string 
{ 
‘private static int charAt(String s, int d) 
{ if (d < s.lengthO)) return s.charAt(d); else return -1; } 
public static void sort(String[] a) 
{ sort(a, 0, a.length - 1, 0); } 
private static void sort(String[] a, int lo, int hi, int d) 
{ 
if (hi <= 10) return; 
WE Es,10,.9C = hi 


int v = charAt(a[lo], d); 
int G4 

while (i <= gt) 

省 


int t = charAt(a[i], d); 


i (t < v) exch(a, 1t++, i++); 

else if (t > v) exch(a, i, gt--); 

else 1++; 
} 
/ A TO,. .RE-1] < wv allt .9t] [gt+1..hi 
sortCas 16, Wt-1, dd); 


if (v >= 0) sort(a, 1t, gt, d+1); 
sort(a, gt+1, hi, d); 
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还 需要 两 轮 切 分 才 
能 到 达 字符 串 的 结尾 


1 和 
jest 
sells 
sells 


不 再 进行 递归 调 
用 (已 到 字符 串 尾 ) 


三 向 字符 串 快 速 排序 的 递归 调用 轨迹 (不 在 子 数组 较 小 时 切换 排序 方法 ) 


3 
} 
在 将 字符 串 数 组 a[] 排序 时 ,根据 它 们 的 首 字 母 进行 三 向 切 分 ， 然 后 (递归 地 ) 将 得 到 的 三 个 子 数 
组 排序 : 一 个 含有 所 有 首 字 母 小 于 切 分 字符 的 字符 串 子 数组 ， 一 个 含有 所 有 首 字 母 等 于 切 分 字符 的 字符 ”|719 
串 的 子 数组 ( 排序 时 忽略 它们 的 首 字母 ) ， 一 个 含有 所 有 首 字母 大 于 切 分 字符 的 字符 串 的 子 数组 。 721 
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5.1.4.3 ”随机 化 

和 快速 排序 一 样 ， 最 好 在 排序 之 前 将 数组 打 乱 或 是 将 第 一 个 元 素 和 一 个 随机 位 置 的 元 素 交 换 以 
得 到 一 个 随机 的 切 分 元 素 。 这 么 做 主要 是 为 了 预防 数组 已 经 有 序 或 是 接近 有 序 的 最 坏 情 况 。 

对 于 字符 串 类 型 的 键 ， 标 准 的 快速 排序 以 及 第 2 章 中 的 其 他 排序 方法 实际 上 都 是 高 位 优先 类 的 
字符 串 排 序 算 法 , 这 是 因为 String 类 的 compareTo0) 方法 是 从 左 到 右 访 问 字符 串 中 的 所 有 字符 的 。 
也 就 是 说 ，compareTo() 在 首 字 母 不 同时 只 会 访问 首 字 母 ， 在 首 字母 相同 且 第 二 个 字母 不 同时 只 会 
访问 它们 的 前 两 个 字母 ， 等 等 。 例 如 ， 如 果 所 有 字符 串 的 首 字 母 均 不 相同 ， 标 准 的 排序 算法 只 会 检 
查 这 些 首 字母 ， 这 就 自动 实现 了 一 些 我 们 希望 对 高 位 优先 的 字符 串 排 序 算法 的 改进 。 三 向 字符 串 排 
序 背后 的 核心 思想 是 对 首 字母 相同 的 键 采 取 特 殊 的 策略 。 实 际 上 你 可 以 把 算法 5.3 看 作对 标准 快速 
排序 的 改进 ， 使 之 能 够 记录 已 知 相同 的 多 个 开头 字母 。 在 较 小 的 子 数 组 中 ， 排 序 所 需 的 大 多 数 比 较 
都 已 经 完成 ， 其 中 的 字符 串 很 可 能 含有 多 个 相同 的 开头 字母 。 标 准 的 方法 在 每 次 比较 时 仍然 需要 扫 
描 整 个 字符 串 ， 但 三 向 字符 串 快速 排序 则 可 以 避免 这 一 点 。 
5.1.4.4 ”性 能 

考虑 字符 串 键 都 很 长 的 情况 〈 简单 起 见 ， 长 度 均 相同 ) 且 键 前 面 的 大 半 部 分 首 字母 均 相 同 。 在 
这 种 情况 下 ， 标 准 快 速 排序 的 性 能 与 字符 串 的 长 度 乘 以 2NlnN 成 正比 ， 而 三 向 字符 串 排序 的 运行 时 
间 则 与 YX 乘 以 字符 串 的 长 度 〈 需 要 发 现 所 有 的 相同 开头 字母 ) 再 加 上 2NInN 次 比较 ( 对 剩 下 的 较 短 
部 分 进行 排序 ) 的 和 成 正比 。 也 就 是 说 ， 三 向 字符 串 快速 排序 所 需 比较 的 字符 最 多 比 普通 的 快速 排 
序 少 2InN 个 。 实 际 排序 应 用 中 人 处 理 的 键 和 这 个 例子 类 似 的 情况 也 并 不 少见 。 


命题 E。 要 将 含有 N 个 随机 字符 串 的 数组 排序 , 三 向 字符 串 快 速 排序 平均 需要 比较 字符 ~ 2NInN 次 。 


证 明 。 我 们 可 以 用 两 种 方式 来 理解 这 个 结论 。 首 先 ， 将 这 个 方法 看 作 在 快速 排序 中 用 首 字母 切 
分 并 (递归 地 ) 调用 相同 的 方法 将 子 数组 排序 ， 那 么 它 所 需 的 操作 数量 和 普通 的 快速 排序 相同 
就 一 点 也 不 奇怪 了 一 一 但 这 只 是 比较 单个 字符 所 需 的 操作 ， 而 非 比较 整个 键 所 需 的 次 数 。 其 次 ， 
可 以 将 这 个 方法 看 作用 快速 排序 代替 了 键 索 引 计数 法 ， 根 据 命 题 D， 我 们 预计 的 运行 时 间 为 
NlogrN 与 2InN 的 积 , 这 是 因为 快速 排序 需要 2RInR 步 来 将 及 个 字符 排序 , 而 对 于 相同 的 字符 串 ， 
高 位 优先 的 字符 串 排 序 算法 只 需要 RR 步 。 这 里 就 不 给 出 完整 的 证 明了 。 


我 们 曾 在 5.1.3.7 节 强 调 过 ， 随 机 字符 串 模型 是 很 有 用 的 ， 但 要 预测 实际 情况 下 算法 的 性 能 还 需 
要 更 仔细 的 分 析 。 研 究 者 已 经 对 这 个 算法 进行 了 深入 的 研究 并 已 经 证 明 在 非常 一 般 的 假设 下 ， 其 他 
算法 最 多 比 三 向 字符 串 快 速 排序 快 常数 级 别 ( 以 比较 的 字符 数量 衡量 ) 。 它 的 应 用 非常 广泛 ， 因 为 
三 向 字符 串 快速 排序 的 性 能 并 不 直接 取决 于 字母 表 的 大 小 。 
5.1.4.5 ”举例 : 网 站 日 志 

作为 三 向 字符 串 快 速 排序 鹤 立 鸡 群 的 一 个 示例 , 我 们 来 考察 一 个 现代 系统 中 的 典型 数据 处 理 任务 。 
假设 你 架设 了 一 个 网 站 并 希望 分 析 它 产生 的 流量 。 你 可 以 从 系统 管理 员 那 里 得 到 网 站 的 所 有 活动 , 每 项 
活动 的 信息 中 都 含有 发 起 者 的 域名 。 例 如 ， 本 书 网 站 上 的 web.log.txt 文件 中 包含 的 就 是 该 网 站 一 个 星期 
中 的 所 有 活动 。 为 什么 三 向 字符 串 快速 排序 能 够 有 效 处 理 这 种 文件 呢 ?” 因 为 排序 结果 中 许多 字符 串 都 有 
很 长 的 公共 前 级 ， 而 这 种 算法 不 会 重复 检查 它们 。 


5.1.5 字符 串 排序 算法 的 选择 
我 们 很 自然 会 对 这 里 的 字符 串 排序 算法 和 第 2 章 中 的 通用 排序 算法 的 对 比 感 兴趣 。 表 5.1.2 总 
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结 了 本 节 所 讨论 过 的 字符 串 排序 算法 的 重要 特征 ( 快速 排序 、 归 并 排序 和 三 向 快速 排序 的 数据 来 自 
第 2 章 ， 以 供 比较 ) 。 


表 5.1.2 各 种 字符 串 排 序 算法 的 性 能 特点 

在 将 基于 大 小 为 R 的 字母 表 的 N 个 字 
符 串 排序 的 过 程 中 调用 charAt() 方法 
次 数 的 增长 数量 级 〈 平 均 长 度 为 w， 最 
大 长 度 为 W) 
运行 了 


局 全 要 立 日 2 小 数组 或 是 已 经 有 序 
| mn | ! | 
通用 排序 算法 ， 特 别 
快速 排序 Nog N logN NT s 间 不 足 的 











是 否 稳 定 | 原 地 排序 优势 领域 








归并 排序 ee ET 
三 向 快速 排序 1 | 是 | N 到 MogN 之 间 | logN | 大 量 重复 刍 


本格 中 得 学 | 是 YL 
高 位 优先 的 字符 串 排序 随机 字符 中 


通用 排序 算法 ， 特 别 
三 向 字符 串 快速 排序 NN 到 Nw 之 间 WtlogN 适合 用 于 含有 较 长 公 
共 前 组 的 字符 串 


和 第 2 草 一 样 ， 根 据 具体 的 算法 和 数据 将 这 些 增长 数量 级 乘 以 适当 的 常数 就 可 以 估计 出 程序 所 
需 的 运行 时 间 。 

我 们 已 经 看 到 过 许多 示例 和 练习 中 的 许多 示例 ， 不 同 的 情况 需要 用 不 同 的 算法 和 参数 来 处 理 。 
在 专家 的 指导 下 ( 现在 也 许 就 是 你 ) ， 在 特定 的 场景 下 算法 的 性 能 也 许 能 够 得 到 大 幅度 提高 。 


图 答疑 


问 ”Java 系统 的 排序 使 用 了 这 些 方 法 来 处 理 String 对 象 吗 ? 

答 ” 没有， 但 Java 的 标准 实现 中 的 字符 串 比 较 非 常 快 ， 它 使 得 标准 排序 的 性 能 与 本 节 中 讨论 的 这 些 算法 
| 

问 ”那么 ,我 只 需要 使 用 系统 排序 来 处 理 String 类 型 的 键 就 可 以 了 吗 ? 

答 在 Java 本 可 能 是 这 样 的 。 当 然 如 果 你 要 处 理 的 字符 串 非 常 多 或 者 需要 一 个 极 快 的 算法 ， 就 可 能 需要 
用 char 数组 代替 String 对 象 并 使 用 基数 排序 算法 。 

问 表 5.1.2 中 的 log 是 怎么 回 事 ? 

说 明 这 些 算法 中 的 大 多 数 比较 都 是 在 含有 长 度 约 为 logN 的 公共 前 级 的 字符 串 之 间 进 行 的 。 最 近 的 一 

些 研 究 通 过 详细 的 数学 分 析 也 证 明了 随机 字符 串 也 满足 这 一 性 质 ( 参见 本 书 网 站 ) 。 725 


图 练习 


5.1.1 实现 一 种 排序 算法 ， 首 先 统计 不 同 键 的 数量 ， 然 后 使 用 一 个 符号 表 来 实现 键 索引 计数 法 并 将 数组 
排序 。 ( 这 种 方法 不 适用 于 不 同 键 的 数量 很 大 的 情况 ) 。 
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5.1.2 给 出 使 用 低位 优先 的 字符 串 排 序 算法 处 理 下 面 这 些 键 的 轨迹 : no is th ti fo al go pe to 
co to th ai of th pa, 

5.1.3 ”给 出 使 用 高 位 优先 的 字符 串 排序 算法 处 理 下 面 这 些 键 的 轨迹 : no is th ti fo al go pe to 
co to th ai of th pa。 

5.1.4 ”给 出 使 用 三 向 字符 串 快速 排序 算法 处 理 下 面 这 些 键 的 轨迹 : no is th ti fo al go pe to co 
to th ai of th pa。 

5.1.5 ”给 出 使 用 高 位 优先 的 字符 串 排序 算法 处 理 下 面 这 些 键 的 轨迹 : now is the time for all good 
people to come to the aid of, 

5.1.6 给 出 使 用 三 向 字符 串 快速 排序 算法 处 理 下 面 这 些 键 的 轨迹 : now is the time for all good 
people to come to the aid of。 

5.1.7 用 一 个 Queue 对 象 的 数组 实现 键 索引 计数 法 。 

5.1.8 对 于 一 个 含有 N 个 键 a, aa, aaa, aaaa, … 的 文件 ， 给 出 高 位 优先 的 字符 串 排 序 和 三 向 字符 串 快 速 排 
序 所 检查 的 字符 数量 。 

5.1.9 实现 能 够 处 理 变 长 字符 串 的 低位 优先 的 字符 串 排序 算法 。 

5.1.10 要 将 X 个 定 长 字符 串 排序 (长 度 均 为 矿 ) ， 在 最 坏 情 况 下 三 向 字符 串 快 速 排序 总 共 需 要 检查 多 
少 个 字符 ? 

图 提高 是 

5.1.11 队列 排序 。 按 照 以 下 方法 使 用 队列 实现 高 位 优先 的 字符 串 排序 : 为 每 个 盒子 "设置 一 个 队列 。 在 
第 一 次 遍历 所 有 元 素 时 ， 将 每 个 元 素 根据 首 字母 插入 到 适当 的 队列 中 。 然 后 ， 将 每 个 子 列 表 排 序 
并 合并 所 有 队列 得 到 一 个 完整 的 排序 结果 。 注 意 ， 在 这 种 方法 中 count[] 数组 不 需要 在 递归 方 
法 内 创建 。 

5.1.12 ”字母 表 。 实 现 5.0.2 节 给 出 的 Alphabet 类 的 API 并 用 它 实 现 能 够 处 理 任意 字母 表 的 低位 优先 的 
和 高 位 优先 的 字符 串 排序 算法 。 

5.1.13 ”混合 排序 。 利 用 标准 的 高 位 优先 的 字符 串 排序 的 多 向 切 分 优势 处 理 大 型 数组 ， 利 用 三 向 字符 串 快 
速 排序 能 够 避免 产生 大 量 空子 数组 的 特点 处 理 小 型 数组 。 研 究 这 种 想法 的 可 行 性 。 

5.1.14 ”数组 排序 。 编 写 一 个 方法 ,使 用 三 向 字符 串 快速 排序 处 理 以 整 型 数组 作为 键 的 情况 。 

5.1.15 ” 亚 线性 排序 。 编 写 一 个 处 理 int 值 的 排序 算法 ， 遍 历数 组 两 闹 ， 第 一 遍 根据 所 有 键 的 高 16 位 进 
行 低位 优先 的 排序 ， 第 二 遍 进行 插入 排序 。 

5.1.16 链表 排序 。 编 写 一 个 排序 算法 ， 接 受 一 条 以 String 为 键 值 参数 的 结 点 链表 并 重新 按 顺 序 排列 所 
有 结 点 ( 返回 一 个 指向 键 值 最 小 的 结 点 的 指针 ) 。 使 用 三 向 字符 串 快速 排序 。 

5.1.17 原 地 键 索 引 计数 法 。 实 现 一 个 仅 使 用 常数 级 别 的 额外 空间 的 键 索 引 计 数 法 。 证 明 你 的 实现 是 稳 
定 的 或 者 提供 一 个 反例 。 

图 实验 是 
5.1.18 ”随机 小 数 键 。 编 写 一 个 静态 方法 randomDecimalKeys， 接 受 整 型 参数 N 和 W 并 返回 一 个 含有 N 


个 字符 串 的 数组 ， 每 个 字符 串 都 是 一 个 含有 W 位 数 的 小 数 。 


GD 参见 老式 卡片 打 孔 排序 机 。 一 一 译 者 注 
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5.1.19 随机 的 加 利 福 尼 亚 州 车 牌号 。 编 写 一 个 静态 方法 randomP1atesCA， 接 受 一 个 整 型 参数 N 并 返回 
一 个 含有 N 个 字符 串 的 数组 ， 每 个 字符 串 都 是 与 本 节 的 示例 类 似 的 加 利 福 尼 亚 州 的 车 牌号 。 

5.1.20 ”随机 定 长 单词 。 编 写 一 个 静态 方法 randomFixedLengthwords， 接 受 整 型 参数 N 和 W 并 返回 一 
个 含有 N 个 字符 串 的 数组 ， 每 个 字符 串 都 基于 英文 字母 表 且 长 度 为 W。 

5.1.21 随机 元 素 。 写 一 个 静态 方法 randomItems ,接受 整 型 参数 N 并 返回 一 个 含有 N 个 字符 串 的 数组 ， 
每 个 字符 串 的 长 度 均 在 15 到 30 之 间 且 由 三 个 部 分 组 成 : 第 一 个 部 分 含有 4 个 字符 , 来 自 于 10 
个 固定 的 字符 串 ; 第 二 个 部 分 含有 10 个 字符 ， 来自 于 50 个 固定 的 字符 串 ; 第 三 个 部 分 含有 1 
个 字符 ,来 自 于 2 个 固定 的 字符 串 ; 第 四 个 部 分 长 15 个 字 节 ， 值 为 长 度 在 4 到 15 之 间 且 向 左 
对 齐 的 随机 字符 串 。 

5.1.22 运行 时 间 。 使 用 多 种 键 生成 器 比较 高 位 优先 的 字符 串 排 序 与 三 向 字符 串 快 速 排序 的 运行 时 间 。 
对 于 定 长 的 键 ， 在 比较 中 加 入 低位 优先 的 字符 串 排序 算法 。 

5.1.23 ”数组 访问 。 使 用 多 种 键 生成 器 比较 高 位 优先 的 字符 串 排序 与 三 向 字符 串 快 速 排序 的 数组 访问 次 
数 。 对 于 定 长 的 键 ， 在 比较 中 加 入 低位 优先 的 字符 串 排 序 算 法 。 

5.1.24 被 访问 的 最 靠 右 的 字符 。 使 用 多 种 键 生 成 器 比较 高 位 优先 的 字符 串 排 序 与 三 向 字符 串 快速 排序 
能 够 访问 到 的 最 靠 右 的 字符 的 位 置 。 
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和 排序 一 样 , 我 们 也 可 以 利用 字符 串 的 性 质 开发 比 第 3 章 中 介绍 的 通用 算法 更 有 效 的 查找 算法 ， 
以 便 用 于 以 字符 串 作为 被 查找 的 键 的 一 般 应 用 程序 。 

具体 来 说 ， 本 节 中 所 讨论 的 算法 在 一 般 应 用 场景 中 ( 甚至 对 于 巨型 的 符号 表 ) 都 能 够 取得 以 下 
性 能 : 

口 查找 命中 所 需 的 时 间 与 被 查找 的 键 的 长 度 成 正比 ; 

口 查找 未 命中 只 需 检查 若干 个 字符 。 

仔细 思考 过 后 你 会 发 现 ， 这 样 的 性 能 是 相当 惊人 的 。 它 们 是 算法 研究 的 最 高 成 就 之 一 ， 也 是 建 
成 现今 能 够 便捷 、 快 速 地 访问 海量 信息 所 依赖 的 基础 设施 的 重要 因素 。 更 重要 的 是 ,我 们 可 以 扩展 
符号 表 的 API， 添 加 基于 字符 的 用 于 处 理 字符 串 类 型 的 键 的 操作 ( 但 不 必 为 所 有 Comparable 类 型 
的 键 者 添加 类 似 操 作 ) 。 它 们 在 实际 应 用 中 非常 强大 并 实用 ， 如 表 5.2.1 所 示 。 


表 5.2.1 以 字符 串 为 键 的 符号 表 的 API 
public class StringST<Value> 
StringSTO) 创建 一 个 符号 表 


void put(String key, Value val) 向 表 中 插入 键 值 对 ( 如 果 值 为 nu11 则 删除 键 key ) 


Value get(String key) 键 key 所 对 应 的 值 ( 如果 键 不 存在 则 返回 nu11 ) 


void 


delete(String key) 


删除 键 key ( 和 它 的 值 ) 


boolean contains(String key) 表 中 是 否 保 存 着 key 的 值 
boolean isEmptyO) 符号 表 是 否 为 空 
String longestPrefixOf(String s) s 的 前 级 中 最 长 的 键 
Iterable<String> keysWithPrefix(String s) 所 有 以 s 为 前 级 的 键 
Iterable<String> keysThatMatch(String s) 所 有 和 s 匹配 的 键 ( 其中“.” 能 够 匹配 任意 字符 ) 
int size() 键 值 对 的 数量 
Iterable<String> keysO) 符号 表 中 的 所 有 键 


这 份 API 与 第 3 章 中 所 介绍 的 符号 表 API 有 以 下 不 同 : 
口 将 泛 型 的 Key 的 类 型 换 成 了 具体 的 类 型 String; 
口 添加 了 3 个 方法 : longestPrefix0f()、keysWwithPrefix() 和 keysThatMatch()。 
本 节 仍 然 遵 守 第 3 章 中 实现 符号 表 时 的 几 个 基本 约定 (不 接受 重复 键 或 空 键 ， 值 不 能 为 空 ) 。 
从 对 字符 串 的 排序 算法 中 可 以 看 到 ， 指 定 字 符 串 的 字母 表 常 常 是 十 分 重要 的 。 对 小 型 字母 表 的 简 
单 而 高 效 的 实现 不 适用 于 大 型 字母 表 ， 这 是 因为 后 者 消耗 的 空间 太 多 。 在 这 种 情况 下 ， 应 该 添加 一 个 
构造 函数 ， 允 许 用 例 指定 所 使 用 的 字母 表 。 我 们 会 在 本 节 稍 后 讨论 这 个 构造 函数 的 实现 ,但 目前 暂时 
没有 在 API 中 列 出 它 ， 因 为 要 将 精力 集中 在 字符 串 类 型 的 键 上 。 
下 面 我 们 用 she sells sea shells by the sea shore 这 几 个 刍 作 为 示例 描述 以 下 3 个 新 
方法 。 
口 longestPrefix0f() 接受 一 个 字符 串 参 数 并 返回 符号 表 中 该 字符 串 的 前 级 中 最 长 的 键 。 对 
于 以 上 所 有 键 ，1ongestPrefix0f("she11") 的 结果 是 she,， longestPrefix0f("she]1- 
1sort") 的 结果 是 shel11s。 
口 keysWithPrefix() 接受 一 个 字符 串 参 数 并 返回 符号 表 中 所 有 以 该 字符 串 作 为 前 缀 的 键 。 对 
于 以 上 所 有 键 ,keysWithPrefix("she") 的 结果 是 she 和 shells,keyswithPrefix ("se") 
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的 结果 是 sells 和 sea。 
口 keysThatMatch() 接受 一 个 字符 串 参 数 并 返回 符号 表 中 所 有 和 该 字符 串 匹配 的 键 ， 其 中 参 
数字 符 串 中 的 点 (“.”) 可 以 匹配 任何 字符 。 对 于 以 上 所 有 和 键 ，keysThatMatch(".he") 
的 结果 是 she 和 the，keysThatMatch("s..") 的 结果 是 she 和 sea。 
在 见 过 这 些 基本 的 符号 表 方 法 后 ， 我 们 将 详细 讨论 这 些 操 作 的 的 实现 和 应 用 。 这 些 特别 的 操作 
是 字符 串 类 型 的 键 所 可 能 进行 的 操作 中 的 代表 操作 ， 我 们 将 会 在 练习 中 讨论 其 他 可 能 的 操作 。 
为 了 突出 中 心思 想 ， 本 节 的 重点 是 put()、get() 和 新 增 的 几 个 方法 ; ( 和 第 3 章 一 样 ) 使 用 
了 contains() 和 isEmpty() 的 默认 实现 ， 并 将 size() 和 delete0) 的 实现 留 作 练习 。 因 为 字符 
串 都 是 Comparable 的 ， 所 以 可 以 在 API 中 包含 第 3 章 有 序 符号 表 API 中 的 各 种 有 序 性 操作 ( 非常 
值得 这 样 做 ) 。 我 们 将 它们 的 实现 (大 多 都 很 简单 ) 留 作 练习 并 放 在 了 本 书 的 网 站 上 。 731 


5.2.1 单词 查找 树 
本 节 中 ， 我 们 要 学 习 一 种 叫做 单词 查找 树 的 数据 结构 。 它 由 字符 串 键 中 的 所 有 字符 构造 而 成 ， 
允许 使 用 被 查找 键 中 的 字符 进行 查找 。 它 的 英文 单词 trie 来 自 于 E.Fredkin 在 1960 年 玩 的 一 个 文字 
游戏 ， 因 为 这 个 数据 结构 的 作用 是 取出 (retrieval ) 数据 ， 但 发 音 为 try 是 为 了 避免 与 tree 相 混淆 。 
我 们 首先 会 描述 单词 查找 树 的 基本 性 质 ， 包 括 查 找 和 插入 算法 ， 然 后 详细 学 习 它 的 数据 表示 方法 和 
Java 实现 。 
5.2.1.1 基本 性 质 
和 各 种 查找 树 一 样 ， 单 词 查找 树 也 是 由 链 


接 的 结 点 所 组 成 的 数据 结构 ， 这 些 链接 可 能 为 
空 ， 也 可 能 指向 其 他 结 点 。 每 个 结 点 都 只 可 能 
有 一 个 指向 它 的 结 点 ， 称 为 它 的 父 结 点 ( 只 

一 个 结 点 除外 ， 即 根 结 点 ， 没 有 任何 结 点 指向 


根 结 点 
天 该 链接 所 指向 的 子 
单词 查找 树 包含 所 
有 以 s 开 头 的 键 
该 链接 所 指向 的 子 
Kb) /单词 查找 树 包含 所 
有 以 she 开 头 的 键 







根 结 点 ) 。 每 个 结 点 都 含有 RR 条 链接 ， 其 中 R 





为 字母 表 的 大 小 。 单 词 查找 树 一 般 都 含有 大 量 (©)5 字符 所 对 应 的 结 点 中 
的 空 链接 ， 因 此 在 绘制 一 棵 单词 查找 树 时 一 般 各 入 

会 忽略 空 链接 。 尽 管 链接 指向 的 是 结 点 ， 但 是 Se 

也 可 以 看 作 链接 指向 的 是 另 一 棵 单词 查找 树 ，。。 用 指向 结 点 的 蜗 接 “人 2 

它 的 根 结 点 就 是 被 指向 的 结 点 。 每 条 链接 都 对 所 对 应 的 字符 标记 结 点 ls 3 

应 着 一 个 字符 一 “因为 每 条 链接 都 只 能 指向 一 

个 结 点 ， 所 以 可 以 用 链接 所 对 应 的 字符 标记 被 i 


指向 的 结 点 ( 根 结 点 除外 ， 因 为 没有 链接 指向 
它 ) 。 每 个 结 点 也 含有 一 个 相应 的 值 ， 可 以 是 空 也 可 以 是 符号 表 中 的 某 个 键 所 关联 的 值 。 具 体 来 说 ， 
我 们 将 每 个 键 所 关联 的 值 保存 在 该 键 的 最 后 一 个 字母 所 对 应 的 结 点 中 。 我 们 应 该 记 住 非常 重要 的 一 
点 : 值 为 空 的 结 点 在 符号 表 中 没有 对 应 的 键 ， 它 们 的 存在 是 为 了 简化 单词 查找 树 中 的 查找 操作 。 一 
棵 单词 查找 树 的 例子 如 图 5.2.1 所 示 。 
5.2.1.2 单词 查找 树 中 的 查找 操作 
在 单词 查找 树 中 查找 给 定 字符 串 键 所 对 应 的 值 是 一 个 很 简单 的 过 程 ， 它 是 以 被 查找 的 键 中 的 字 
符 为 导向 的 。 单 词 查找 树 中 的 每 个 结 点 都 包含 了 下 一 个 可 能 出 现 的 所 有 字符 的 链接 。 从 根 结 点 开始 ， 
首先 经 过 的 是 键 的 首 字 母 所 对 应 的 链接 ; 在 下 一 个 结 点 中 沿 着 第 二 个 字符 所 对 应 的 链接 继续 前 进 ; 
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在 第 二 个 结 点 中 沿 着 第 三 个 字符 所 对 应 的 链接 向 前 ， 如 此 这 般 直到 到 达 键 的 最 后 一 个 字母 所 指向 的 
结 点 或 是 遇 到 了 一 条 空 链接 。 这 时 可 能 会 出 现 以 下 3 种 情况 ( 示例 请 见 图 5.2.2 ) 。 
口 键 的 尾 字 符 所 对 应 的 结 点 中 的 值 非 空 ( 如 图 5.2.2 中 查找 she11s 和 she 的 示例 ) 。 这 是 一 
次 命中 的 查找 一 一 键 所 对 应 的 值 就 是 键 的 尾 字符 所 对 应 的 结 点 中 保存 的 值 。 
口 键 的 尾 字符 所 对 应 的 结 点 中 的 值 为 空 ( 如 图 5.2.2 中 查找 she11 的 示例 ) 。 这 是 一 次 未 命中 
的 查找 一 一 符号 表 中 不 存在 被 查找 的 键 。 
口 查找 结束 于 一 条 空 链接 ( 如 图 5.2.2 中 查找 shore 的 示例 ) 。 这 也 是 一 次 未 命中 的 查找 。 





命中 的 查找 未 命中 的 查找 
get("shells") 沼 get("shel1")() 
Q CS 
(Ch) Ch) 
(e) © 
Q) Q) 
全 Q) 
(9)3 
返回 键 的 尾 字 符 对 应 的 键 的 尾 字符 对 应 的 结 点 中 
结 点 中 所 保存 的 值 所 保存 的 值 为 空 ， 返 回 空 
get("she") O get("shore") 
CS 
(nh) 
(e)0 
查找 可 能 终 上 ee 
Pt 没有 与 0 对 应 的 
链接 ， 返 回 空 


图 5.2.2 单词 查找 树 的 查找 示例 


733 在 所 有 的 情况 中 , 执行 查找 的 方式 就 是 在 单词 查找 树 中 从 根 结 点 开始 检查 某 条 路 径 上 的 所 有 结 点 。 
5.2.1.3 ”单词 查找 树 中 的 插入 操作 
和 二 又 查找 树 一 样 ， 在 插入 之 前 要 进行 一 次 查找 : 在 单词 查找 树 中 意味 着 沿 着 被 查找 的 键 的 
所 有 字符 到 达 树 中 表示 尾 字符 的 结 点 或 者 一 个 空 链接 。 此 时 可 能 会 出 现 以 下 两 种 情况 。 
口 在 到 达 键 的 尾 字 符 之 前 就 遇 到 了 一 个 空 链接 。 在 这 种 情况 下 ， 字 符 查 找 树 中 不 存在 与 键 的 尾 
字符 对 应 的 结 点 ， 因 此 需要 为 键 中 还 未 被 检查 的 每 个 字符 创建 一 个 对 应 的 结 点 并 将 键 的 值 保 
存 到 最 后 一 个 字符 的 结 点 中 。 
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口 在 遇 到 空 链接 之 前 就 到 达 了 键 的 尾 字 符 。 在 这 种 情况 下 ， 和 关联 性 数组 一 样 ， 将 该 结 点 的 值 
设 为 键 所 对 应 的 值 (无 论 该 值 是 否 为 空 ) 。 
在 所 有 情况 下 ， 我 们 都 会 检查 键 中 的 每 个 字符 并 为 它们 在 树 中 创建 一 个 对 应 的 结 点 。 在 使 用 第 
3 章 中 的 标准 索引 用 例 处理 输 入 she sells sea shells by the sea shore 时 所 构造 的 单词 查找 


树 如 图 5.2.3 所 示 。 





键 ” 值 ss 键 ” 值 
she 0 i by 4 
GS) 
键 的 值 存在 于 尾 字 
中 4 母 所 对 应 的 结 点 中 
(e)0 
sells 二 () 
(s) 
(e) the 5 
键 的 每 个 字母 都 7《1D (© 
对 应 着 一 个 结 点 。 (T) 本 
(S)1 (e)5 
sea 2 () 
(Ss) 
> () 
sea 6 
键 就 是 由 从 根 结 点 we , 
到 值 所 在 的 结 点 的 (s) 
一 系列 字符 组 成 的 él 
(6 
shells 3 (3 和 要 的 必 字 答对 
应 的 结 点 存在 ， 
(5) 重 置 它 的 值 
(Ch) 
(e) shore 7 @ 
GQ) 
GQ) 
和 键 的 未 尾部 分 字符 对 3 四 
应 的 结 点 不 存在 ， 因 此 
需要 创建 这 些 结 点 并 将 (r) 
值 保 存在 最 后 一 个 结 点 中 7 


5.2.3 ”标准 索引 用 例 中 单词 查找 树 的 构造 轨迹 


478 入 第 5 章 字 符 串 


5.2.1.4” 结 点 的 表示 

在 本 节 开 头 提 到 过 , 我 们 为 单词 查找 树 所 绘 出 的 图 像 和 在 程序 中 构造 的 数据 结构 并 不 完全 一 致 ， 
因为 我 们 没有 画 出 空 链接 。 将 空 链接 考虑 进来 将 会 突出 单词 查找 树 的 以 下 重要 性 质 : 

口 每 个 结 点 都 含有 RR 个 链接 ， 对 应 着 每 个 可 能 出 现 的 字符 ; 

口 字符 和 键 均 隐 式 地 保存 在 数据 结构 中 。 

例如 ， 在 图 5.2.4 中 的 单词 查找 树 中 ， 所 有 的 键 均 由 小 写字 母 组 成 ， 每 个 结 点 都 含有 一 个 值 和 
26 个 链接 。 第 一 条 链接 指向 的 子 单词 查找 树 中 的 所 有 键 的 首 字母 都 是 a， 第 二 条 链接 指向 的 子 单词 
查找 树 中 的 所 有 键 的 首 字母 都 是 b， 等 等 。 


| LET 
CY 链接 的 索引 隐 式 地 











广 定义 了 对 应 的 字符 | LTTE 
i > 
/ ‘ ] JE CRI 
| ] Oe 2 [IID IUD |o CETTE 
TY | Hi | 
/ | \ 每 个 结 点 都 含有 一 
(3) Fi ER 个 链接 数组 和 一 个 值 





图 5.2.4 单词 查找 树 的 表示 (R=26) 


在 单词 查找 树 中 ， 键 是 由 从 根 结 点 到 含有 非 空 值 的 结 点 的 路 径 所 隐 式 表示 的 。 例 如 ， 在 单词 查 
找 树 中 ， 字 符 串 sea 所 关联 的 值 是 2， 因 为 根 结 点 中 的 第 19 条 链接 ( 指向 由 所 有 以 s 开头 的 键 组 
成 的 子 单词 查找 树 ) 非 空 ， 下 一 个 结 点 中 的 第 5 条 链接 ( 指向 由 所 有 以 se 开头 的 键 组 成 的 子 单词 
查找 树 ) 非 空 ， 第 三 个 结 点 中 的 第 1 条 链接 ( 指向 由 所 有 以 sea 开头 的 键 组 成 的 子 单词 查找 树 ) 的 
值 为 2。 数 据 结构 既 没 有 保存 字符 串 sea 也 没有 保存 字符 s、e 和 a。 事 实 上 ， 数 据 结构 不 会 存储 任 
何 字符 串 或 字符 ， 它 保存 了 链接 数组 和 值 。 因 为 参数 R 的 作用 的 重要 性 ， 所 以 将 基于 含有 个 字符 
的 字母 表 的 单词 查找 树 称 为 R 向 单词 查找 树 。 

有 了 这 些 预 备 知 识 之 后 ， 算 法 5.4 实现 的 符号 表 TrieST 就 很 容易 理解 了 。 它 也 使 用 了 类 似 于 
第 3 章 介绍 的 查找 树 使 用 的 递归 方法 。 它 的 私有 Node 类 用 实例 变量 val 保存 键 相关 联 的 值 并 用 
数组 next[] 保存 所 有 指向 其 他 Node 对 象 的 引用 。 这 


public int size() 


些 递 归 方 法 的 实现 非常 简洁 ， 值得 仔细 研究 。 下 面 ， { return size(root); } 
我 们 将 讨论 接受 一 个 Alphabet 对 象 作为 参数 的 构造 private int size(Node x) 
亲 数 和 size()、keys()、1ongestPrefixOf() 、 { 


if Cx nail return :0i 
keyswithprefix()、keysThatMatch() 和 if 名 二 加 We 
Tnt cnt :01 


delete() 方法 的 实现 。 理 解 这 些 递归 方法 也 并 不 困 if (x.val != nul11) cnt++; 
难 ， 只 是 每 个 方法 都 会 比 前 一 个 稍 加 复杂 。 for (char c = 0; c < Ri c++) 
5.2.1.5 大 小 cnt += size(next[c]); 

和 第 3 章 中 的 二 又 查找 树 一 样 ，sizeQ 方法 的 实  } he 
现 有 以 下 3 种 显而易见 的 选择 。 

口 即时 实现 : 用 一 个 实例 变量 V 保存 键 的 数量 。 单词 查找 树 的 延 时 递归 方法 size 〇 
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口 更 加 即时 的 实现 : 用 结 点 的 实例 变量 保存 子 单词 查找 树 中 键 的 数量 ， 在 递归 的 put() 和 
delete0) 方法 调用 之 后 更 新 它们 。 
口 延 时 递归 实现 : 如 上 页 框 和 注 “ 单 词 查找 树 的 延 时 递归 方法 size()” 所 示 。 它 会 遍历 单词 查 
找 树 中 的 所 有 结 点 并 记录 非 空 值 结 点 的 总 数 。 
和 二 叉 查 找 树 一 样 ， 延 时 实现 很 有 指导 意义 但 是 应 该 尽量 避免 ， 因 为 它 会 给 用 例 造成 性 能 上 的 
问题 。 我 们 会 在 练习 中 讨论 它 的 即时 实现 。 73 


算法 5.4 ”基于 单词 查找 树 的 符号 表 


CN 


public class TrieST<Value> 
{ 
private static int R = 256; // 基数 
private Node root; // 单词 查找 树 的 根 结 点 


private static class Node 
{ 
private Object val; 
private Node[] next = new Node[R]; 


} 


public Value get(String key) 

{ 
Node x = get(root, key, 0); 
if (x == nul1) return nu11; 
return (Value) x.val; 


} 


private Node get(Node x, String key, int d) 
{ // 返回 以 x 作为 根 结 点 的 子 单 词 查 找 树 中 与 Kkey 相 关联 的 值 
if (x == nul1) return null; 
if (d == key.length()) return x; 
char c = key.charAt(d); // 找到 第 d 个 字符 所 对 应 的 子 单词 查找 树 
return get(x.next[c], key, d+1); 


} 


public void put(String key, Value val) 
{ root = put(root, key, val, 0); } 


private Node put(Node x, String key, Value val, int d) 

{ // 如 果 Kkey 存 在 于 以 X 为 根 结 点 的 子 单 词 查找 树 中 则 更 新 与 它 相 关联 的 值 
if (x == null) x = new NodeQO); 
if (d == key.length()) { x.val = val; return x; } 
char c = key.charAt(d); // 找到 第 d 个 字符 所 对 应 的 子 单词 查找 树 
x.next[c] = put(x.next[c], key, val, d+1); 
return x; 


} 


这 份 代码 使 用 R 向 单词 查找 树 实现 了 符号 表 。 我 们 会 在 下 面 的 几 页 中 讨论 表 5.2.1 中 字符 串 符号 
表 API 中 新 增 的 方法 。 我 们 很 容易 通过 修改 这 段 代码 来 处 理 特殊 字母 表 中 的 键 ( 请 见 5.2.1.8 节 ) 。 因 
为 Java 不 支持 泛 型 数组 ， 所 以 Node 中 的 值 的 类 型 必须 是 0Object， 可 以 在 get() 中 将 值 的 类 型 转换 为 
Value。 737 
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Co 


5.2.1.6 ”查找 所 有 键 

因为 字符 和 键 是 被 隐 式 地 表示 在 单词 查找 树 中 ， 所 以 使 用 例 能 够 遍历 符号 表 的 所 有 键 就 变 得 有 
些 困 难 。 在 二 又 查找 树 中 , 我 们 将 所 有 字符 串 键 保 存在 一 个 队列 (Queue ) 里 。 但 对 于 单词 查找 树 ， 
不 仅 要 能 够 在 数据 结构 中 找到 这 些 键 ， 还 需要 显 式 地 表示 它们 。 我 们 用 一 个 类 似 于 size() 的 私有 
递归 方法 collect() 来 完成 这 个 任务 ， 它 维护 了 一 个 字符 串 用 来 保存 从 根 结 点 出 发 的 路 径 上 的 一 
系列 字符 。 每 当 我 们 在 co11ect0) 调用 中 访问 一 个 结 点 时 ， 方 法 的 第 一 个 参数 就 是 该 结 点 ， 第 二 
个 参数 则 是 和 该 结 点 相关 联 的 字符 串 (从 根 结 点 到 该 结 点 的 路 径 上 的 所 有 字符 ) 。 在 访问 一 个 结 点 
时 ， 如 果 它 的 值 非 空 ， 我 们 就 将 和 它 相 关联 的 字符 串 加 入 队列 之 中 ， 然 后 〈 递 归 地 ) 访问 它 的 链接 
数组 所 指向 的 所 有 可 能 的 字符 结 点 。 在 每 次 调用 之 前 ， 都 将 链接 对 应 的 字符 附加 到 当前 键 的 末尾 作 
为 调用 的 参数 键 。 用 这 个 collectQ 方法 为 API 中 的 keysC) 和 keyswithPrefix(0) 方法 收集 符 
号 表 中 所 有 的 键 。 要 实现 keys() 方法 ， 可 以 以 空 字符 串 作为 参数 调用 keysWithPrefix() 方法 。 
要 实现 keysWithPrefix() 方法 ， 可 以 先 调 用 get() 找 出 给 定 前 级 所 对 应 的 单词 查找 树 ( 如 果 不 
存在 则 返回 nu11) ， 再 使 用 collect() 方法 完成 任务 。 图 5.2.5 显示 了 collect0 方法 (或 者 说 
keyswWithPrefix("") 调用 ) 在 一 棵 单词 查找 树 中 的 轨迹 ， 它 给 出 了 每 次 调用 collect() 方法 时 第 
二 个 参数 的 值 和 队列 的 内 容 。 图 5.2.6 显示 了 keysWithPrefix("sh") 的 运行 过 程 。 





public Iterable<String> keysO) keysWithPrefix(”); 
{ return keyswithPrefix(""); } 键 
q 
public Iterable<String> b 
keysWithPrefix(CString pre) WY by 
由 
Queue<String> q = new Queue<String>(); a Sea 
collect(get(root, pre, 0), pre, q); sel 
return q; - sell 
sells sells 
sh 
private void collect(Node x, String pre, i 
she 
{ Muertesotrings 9 Chells shells 
if (Cx == nul1) return; 0 
if (x.val != nul1) q.enqueue(pre); shore shore 
for (char'c = 0; c < Ri c++) t 
4 collect(x.next[c], pre + c，q); a i 
收集 一 棵 单词 查找 树 中 的 所 有 键 图 5.2.5 收集 一 棵 单词 查找 树 中 的 所 有 键 的 轨迹 
keyswithPrefix("sh"); 
键 9 
sh 
sa she 
she 
ja]! he shen 
shells shells 
Wg (e)0No) sho 
shor 
找 出 和 所 有 以 "sh" WU (PD shore shore 
子音 词 查找 网， CD (@7~、 收集 该 子 单词 查 
3 找 树 中 的 所 有 键 


图 5.2.6 单词 查找 树 中 的 前 级 匹配 
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5.2.1.7 通配符 匹配 

我 们 可 以 用 一 个 类 似 的 过 程 实现 keysThatMatch() ， 但 需要 为 collect() 方法 添加 一 个 参数 
来 指定 匹配 的 模式 。 如 果 模 式 中 含有 通配符 ， 就 需要 用 递归 调用 处 理 所 有 的 链接 ， 否 则 就 只 需要 处 
理 模式 中 指定 字符 的 链接 即 可 ， 如 下 方 的 框 注 所 示 。 你 还 可 以 注意 到 ， 这 里 不 需要 考虑 长 度 超 过 模 
式 字符 串 的 键 。 


public Iterable<String> keysThatMatch(String pat) 
4 
Queue<String> q = new Queue<String>O; 
collect(troot, Et q0ls 
return q; 


} 


public void collect(Node x, String pre, String pat, Queue<String> q) 
{ 

int d = pre.length(); 

if (x == nul1) return; 

if (d == pat.length() && x.val != null) q.enqueue(pre); 

if (d == pat.length()) return; 


char next = pat.charAt(d); 
for (char c = 0; c < Ri c++) 
if (next == "," || next == C) 
collect(x.next[c], pre + c¢, pat, q); 


单词 查找 树 中 的 通配符 匹配 


5.2.1.8 ”最 长 前 绥 

为 了 找到 给 定 字 符 串 的 最 长 键 前 级 ， 就 需要 使 用 一 个 类 似 于 get © 的 递归 方法 。 它 会 记录 查找 
路 径 上 所 找到 的 最 长 键 的 长 度 〈 将 它 作 为 递归 方法 的 参数 在 遇 到 值 非 空 的 结 点 时 更 新 它 ) 。 查 找 会 
在 被 查找 的 字符 串 结束 或 是 遇 到 空 链接 时 终止 ， 请 见 图 5.2.7。 


public String longestPrefixOf(String s) 
{ 3 
int length = search(root, s, 0, 0); 
return s.substring(0, length); 
} 


private int search(Node x, String s, int d, int length) 
{ 

if (x == null) return length; 

if (x.val != nul1) length = d; 

if (d == s.length()) return length; 

char c = s.charAt(d); 

return search(x.next[c], s, d+1, length); 


对 给 定 字 符 串 的 最 长 前 级 进行 匹配 


482 je 第 5 章 字 符 串 


5.2.1.9 ”删除 操作 

从 一 棵 单词 查找 树 中 删 去 一 个 键 值 对 的 第 一 步 是 ， 找 到 键 
所 对 应 的 结 点 并 将 它 的 值 设 为 空 (nu11) 。 如 果 该 结 点 含有 一 
个 非 空 的 链接 指向 某 个 子 结 点 ， 那 么 就 不 需要 在 进行 其 他 操作 
了 。 如 果 它 的 所 有 链接 均 为 空 ， 那 就 需要 从 数据 结构 中 删 去 这 
个 结 点 。 如 果 删 去 它 使 得 它 的 父 结 点 的 所 有 链接 也 均 为 空 ， 就 
需要 继续 删除 它 的 父 结 点 ， 依 此 类 推 。 如 下 面 框 注 中 的 实现 所 
示 ， 根 据 标准 递归 流程 ， 这 项 操作 所 需 的 代码 极 少 : 在 递归 删 
除了 某 个 结 点 x 之 后 ， 如 果 该 结 点 的 值 和 所 有 的 链接 均 为 空 则 
返回 nu11， 否 则 返回 x， 请 见 图 5.2.8。 


public void delete(String key) 
{ root = delete(root, key, 0); +} 


private Node delete(Node x, String key, int d) 
i (x= nu "return -nulls 
if (d == key.length()) 
x.val = null; 
else 
{ 
char c = key.charAt(d); 
x.next[c] = delete(x.next[c], key, d+1); 
和 


if"Cxaval la null) return xy 


for Cchar c= 0 Cc < R; C44+) 
if (xXx.mext[le] l= null)' return x: 
return null; 


从 单词 查找 树 中 删除 一 个 键 (和 它 相 关联 的 值 ) 


5.2.1.10 ”字母 表 
和 以 前 一 样 ， 算 法 5.4 处 理 的 是 Java 的 String 类 型 的 键 ， 
但 将 它 修 改 为 处 理由 任意 字母 表 得 到 的 键 也 很 容易 。 
口 实现 一 个 构造 函数 , 接受 一 个 Alphabet 对 象 作为 参数 ， 
将 一 个 Alphabet 类 型 的 实例 变量 设 为 该 参数 的 值 并 
将 实例 变量 R 的 值 设 为 字母 表 中 字母 的 个 数 。 
口 在 get() 和 put(0) 中 使 用 Alphabet 类 的 toIndex() 
方法 ,将 字符 串 中 的 字符 转化 为 0 到 有 -1 之 间 的 索引 值 。 
口 使 用 Alphabet 类 的 toCharQ 方法 , 将 0 到 R-l 之 间 的 
索引 值 转化 为 字符 型 (char ) 的 值 。getQ 和 putQ 方法 
需要 进行 此 操作 ， 但 它 在 keys() 、keysWithPrefix() 
和 keysThatMatchQ 方法 的 实现 中 很 重要 。 


(A) 
© 


被 查找 的 字符 
串 结束 且 结 点 
的 值 非 空 ， 查 
找 结束 ， 返 回 
"she" 


"shell 


被 查找 的 字符 

(e)0 。 串 结束 且 结 点 

CD “的 值 为 空 , 查 
找 结束 ， 返 回 

(1) "she" (路 径 
上 最 近 的 一 个 
键 ) 


"shellsort" 


(A 


查找 在 空 链 接 
处 结束 ， 返 回 
G) "shells" 
“一 (路 径 上 最 近 
的 一 个 键 ) 


"shelters" 


() 

(8) 
. 查找 在 空 链接 
(e)0 。 处 结束 ， 返 回 
OO 和 "she" (路 


径 上 最 近 的 一 
个 键 ) 


图 5.2.7 1ongestPrefix0f() 方 
法 的 各 种 可 能 情况 


经 过 这 些 修改 ， 如 果 已 知 所 有 键 仅 来 自 于 一 个 小 型 的 字母 表 ， 那 可 以 节省 相当 大 的 空间 (在 每 个 
结 点 中 仅 使 用 条 链接 ) ， 代 价 是 字母 和 索引 相互 转化 所 需要 的 时 间 。 
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delete("shells"); 
() 
) 中 r 


Ch) 
(©) Oo 
(D 
将 值 
@) 1 @ | 
非 空 值 ， 不 能 删 去 结 点 非 空 链 接 
| (返回 指向 结 点 的 链接 ) 


es 删 去 
(返回 一 个 空 链接 ) 


图 5.2.8 ”从 单词 查找 树 中 删除 一 个 键 (和 它 相 关联 的 值 ) 


框 注 “ 从 单词 查找 树 中 删除 一 个 键 (和 它 相关 联 的 值 ) ”就 是 字符 串 符号 表 API 的 一 个 简洁 而 
完整 的 实现 ， 它 适用 于 各 种 实际 应 用 场景 。 本 节 的 练习 讨论 了 它 的 几 种 变化 和 扩展 。 下 面 我 们 要 讨 
论 单词 查找 树 的 基本 性 质 和 限制 条 件 。 


5.2.2 单词 查找 树 的 性 质 
和 以 前 一 样 ， 我 们 希望 知道 在 一 般 的 应 用 程序 中 使 用 单词 查找 树 所 需要 的 时 间 和 空间 。 单 词 查 
找 树 已 经 被 分 析 和 研究 得 很 透彻 了 ， 它 的 基本 性 质 也 比较 容易 理解 和 应 用 。 


命题 F。 单 词 查找 树 的 链表 结构 ( 形状 ) 和 键 的 插入 或 删除 顺序 无 关 : 对 于 任意 给 定 的 一 组 键 ， 
其 单词 查找 树 都 是 唯一 的 。 


证 明 。 由 数学 归纳 法 很 容易 通过 子 单词 查找 树 证 明 这 个 结论 。 


这 个 基本 的 结论 是 单词 查找 树 的 一 个 特殊 性 质 : 我 们 目前 已 经 学 过 的 所 有 其 他 结构 的 查找 树 的 
构造 都 不 仅 和 键 的 集合 有 关 ， 而 且 还 取决 于 这 些 键 的 插入 顺序 。 
5.2.2.1 最 坏 情况 下 查找 和 插入 操作 的 时 间 界 限 

在 单词 查找 树 中 找到 给 定 键 的 值 要 花 多 长 时 间 ?” 对 于 二 又 查找 树 、 散 列表 和 第 3 章 中 所 介绍 的 
其 他 算法 ， 都 需要 使 用 数学 分 析 来 回答 这 个 问题 。 但 是 对 于 单词 查找 树 ， 这 个 问题 很 简单 。 


命题 G。 在 单词 查找 树 中 查找 一 个 键 或 是 插入 一 个 键 时 ， 访 问 数 组 的 次 数 最 多 的 键 的 长 度 加 1。 


证 明 。 由 代码 可 知 ，put() 和 get() 方法 的 递归 实现 都 带 有 一 个 参数 d。 它 的 初始 值 为 0， 每 
次 调用 时 都 会 加 1， 当 长 度 等 于 键 的 长 度 时 递归 调用 停止 。 


从 理论 角度 来 说 ， 命 题 G 意味 着 单词 查找 树 对 于 命中 的 查找 是 最 理想 的 一 一 我 们 不 能 奢望 查找 
所 需 的 时 间 比 与 被 查找 的 键 的 长 度 成 正比 更 好 。 无 论 使 用 的 是 什么 算法 和 数据 结构 ， 在 检查 完 要 查 
找 的 键 中 的 所 有 字符 之 前 都 是 无 法 判断 是 否 已 找到 该 键 。 从 实际 角度 来 说 ， 这 个 保证 也 很 重要 ， 因 
为 它 和 符号 表 中 键 的 数量 无 关 : 当 我 们 在 处 理 类 似 于 车 牌号 码 的 7 个 字符 的 键 时 ， 可 以 知道 查找 或 
插入 操作 最 多 只 需要 检查 8 个 结 点 ; 当 我 们 在 处 理 20 个 字符 的 数字 账号 时 ， 最 多 只 需要 检查 21 个 
结 点 就 可 以 完成 查找 或 插 人 操作 。 
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5.2.2.2 ”查找 未 命中 的 预期 时 间 界 限 

假设 我 们 正在 单词 查找 树 中 查找 一 个 键 ， 发 现 根 结 点 中 与 被 查找 键 的 第 一 个 字符 所 对 应 的 链接 
为 空 。 此 时 只 检查 了 一 个 结 点 就 知道 了 该 键 不 存在 于 表 中 。 这 种 情况 是 很 常见 的 : 单词 查找 树 的 最 
重要 的 性 质 之 一 就 是 未 命中 的 查找 一 般 都 只 需要 检查 很 少 的 几 个 结 点 。 如 果 假 设 键 都 来 自 于 随机 字 


符 串 模型 (R 中 的 所 有 不 同 字符 出 现 的 几率 均 相同 ) ， 可 以 证 明 以 下 结论 。 


命题 H。 字 其 表 的 大 小 为 R， 在 一 棵 由 入 个 随机 键 构 造 的 单词 查找 树 中 ， 未 命中 查找 平均 所 需 
检查 的 结 点 数量 为 ~logrN。 
简略 证 明 ( 写 给 熟悉 概率 分 析 的 读者 ) 。 所 有 的 N 个 键 都 与 一 个 随机 的 查找 键 的 前 上 个 字符 中 
至 少 有 一 个 字符 不 同 的 概率 为 (1-R")"。 用 1 减 去 它 即 可 得 到 单词 查找 树 中 至 少 有 一 个 键 和 被 查 
找 键 的 前 个 字符 都 相 匹 配 的 概率 。 也 就 是 说 ，1-(1-R") 的 查找 操作 至 少 需 要 比较 1 个 字符 的 
概率 。 在 概率 分 析 中 ， 对 于 扩 0,1,2…， 一 个 整数 随机 变量 大 于 ! 的 概率 之 和 就 是 该 随机 变量 的 
平均 值 。 因 此 ， 查 找 的 平均 成 本 为 : 
1-(1-R YT+1 (1-R tet RN + 

根据 基本 的 近似 公式 (1-1/x)*~e ， 查 找 的 平均 成 本 的 近似 函数 为 : 

1 (1 eA Ai. EMR reeet(l— N/R’ )+ 
当 R' 远 小 于 和 时 ， 相 对 应 的 约 InaN 项 的 值 非常 接近 于 1; 当 R' 远 大 于 入 时 ,所 对 应 的 所 有 的 
项 的 值 均 极为 接近 于 0; 当 R'SN 时 ， 所 对 应 的 项 不 多 且 它 们 的 值 均 在 0 和 1 之 间 。 因 此 ， 它 
的 总 和 约 为 logrN。 


从 实际 角度 来 说 , 该 命题 说 明 的 最 重要 的 一 点 就 是 ,查找 未 命中 的 成 本 与 键 的 长 度 无 关 。 例如 ， 
它 说 明 在 一 棵 由 100 万 个 随机 键 构造 出 的 单词 查找 树 中 ， 未 命中 的 查找 也 只 需要 检查 3~4 个 结 点 ， 
无 论 这 些 键 是 含有 7 个 数字 的 车 辆 牌照 还 是 20 个 数字 的 账号 。 虽 然 在 实际 应 用 中 真正 的 随机 键 是 不 
可 能 出 现 的 , 但 该 模型 能 够 描述 一 般 应 用 场景 中 单词 查找 树 算法 对 键 的 处 理 方式 , 上 述 猜想 是 合理 的 。 
事实 上 ， 这 种 行为 方式 在 实际 应 用 中 十 分 常见 而 且 也 是 单词 查找 树 得 到 广泛 应 用 的 一 个 重要 原因 。 
5.2.2.3 ”空间 

一 棵 单词 查找 树 需 要 多 少 空 间 ? 回 答 这 个 问题 (了 解 可 用 的 空间 有 和 多少 ) 是 有 效 使 用 单词 查找 
树 的 关键 。 


命题 |。 一 棵 单词 查找 树 中 的 链接 总 数 在 RN 到 RNw 之 间 ， 其 中 w 为 键 的 平均 长 度 。 


证 明 。 在 单词 查找 树 中 ， 每 个 键 都 有 一 个 对 应 的 结 点 保存 着 它 关 联 的 值 ， 同 时 每 个 结 点 也 含有 
及 条 链接 ， 因 此 链接 总 数 至 少 有 RN 条 。 如 果 所 有 的 键 的 首 字母 均 不 相同 ， 那 么 每 个 键 中 的 每 
个 字母 都 有 一 个 对 应 的 结 点 ， 因 此 链接 总 数 应 该 等 于 尺 乘 以 所 有 键 中 的 字符 总 数 ， 即 RNw。 


表 5.2.2 说 明了 我 们 所 讨论 的 一 些 典 型 的 应 用 场景 所 需 的 空间 成 本 。 它 说 明了 单词 查找 树 中 的 
一 些 经 验 性 的 规律 。 

口 当 所 有 键 均 较 短 时 ， 链 接 的 总 数 接近 于 RN; 

口 当 所 有 键 均 较 长 时 ， 链 接 的 总 数 接近 于 RNw; 


口 因此 ,缩小 R 能够 节省 大 量 的 空间 。 


这 张 表 传递 出 的 另 一 条 更 加 微妙 的 信息 是 ， 在 实际 应 


的 所 有 键 的 性 质 是 非常 重要 的 。 
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用 中 采用 单词 查找 树 之 前 了 解 将 要 被 插入 


表 5.2.2 典型 的 单词 查找 树 的 空间 需求 


应 ”用 典型 的 键 平均 长 度 w 
加 利 福 尼 亚 州 的 车 牌号 。 4PGC938 ¥ 
数字 账号 02400019992993299111 20 
URL www.cs.princeton.edu 28 
文本 处 理 seashells 11 
基因 组 数据 中 的 蛋白 质 《ACTGACTG 8 
5.2.2.4 ” 单 向 分 支 


长 键 在 单词 查找 树 中 占用 了 大 量 空间 的 主要 原因 
是 ， 树 中 的 长 键 通常 都 有 一 条 长 长 的 “尾巴 ”， 其 中 每 
个 结 点 都 只 含有 一 条 指向 下 一 个 结 点 的 链接 ( 因此 都 
含有 R-l 条 空 链 接 ) 。 这 种 情况 并 不 难 纠 正 ( 请 见 练 
习 5.2.11 和 图 5.2.9 ) 。 单 词 查找 树 的 内 部 也 可 能 存在 
单 向 的 分 支 。 例 如 ， 两 个 长 键 可 能 只 有 最 后 一 个 字符 
不 同 。 解 决 这 种 情况 要 更 加 困难 一 些 ( 请 见 练习 5.2.12 )。 
这 些 修改 能 够 使 得 单词 查找 树 的 空间 消耗 比 已 经 讨论 
过 的 简单 实现 缩小 许多 ， 但 它们 对 于 实际 应 用 场景 基 
本 不 起 作用 。 下 面 我 们 将 学 习 降 低 单 词 查找 树 的 空间 
消耗 的 另 一 种 方式 。 

我 们 的 底线 是 : 不 要 使 用 算法 5.4 处 理 来 自 于 大 
型 字母 表 的 大 量 长 键 。 它 所 构造 的 单词 查找 树 所 需要 
的 空间 与 R 和 所 有 键 的 字符 总 数 之 积 成 正比 。 但 是 ， 
如 果 你 能 够 负担 得 起 这 么 庞大 的 空间 ， 单 词 查找 树 的 
性 能 是 无 可 匹敌 的 。 


5.2.3 三 向 单词 查找 树 


为 了 避免 R 向 单词 查找 树 过 度 的 空间 消耗 ,我 们 现在 来 学 习 男 一 种 数据 的 表示 方法 : 
点 都 含有 一 个 字符 、 


找 树 (TST ) 。 在 三 向 单词 查找 树 中 ， 每 个 结 


100 万 个 键 所 构造 的 单词 查找 

字母 表 大 小 及 所 

树 中 的 链接 总 数 

256 2 亿 5 千 6 百 万 
256 40 亿 

10 2 亿 5 千 6 百 万 
256 40 亿 

256 2 亿 5 千 6 百 万 

256 2 亿 5 千 6 百 万 
4 40 亿 


put("shells", 1); 
put(” shellfish" 2 


标准 的 单词 查找 树 不 存在 单 向 分 支 的 情况 


1 Cen )? 


内 部 的 单 向 分 支 


外 部 的 单 向 分 支 





图 5.2.9 ”消除 单词 查找 树 中 的 单 向 分 支 


三 向 单词 查 
三 条 链接 和 一 个 值 。 这 三 条 链接 分 


别 对 应 着 当前 字母 小 于 、 等 于 和 大 于 结 点 字母 的 所 有 键 。 在 算法 5.4 的 R 向 单词 查找 树 中 ， 树 的 结 点 


含有 RR 条 链接 ， 


每 个 非 空 链接 的 索引 隐 式 地 表示 了 它 所 对 应 的 字符 。 在 等 价 的 三 


向 单词 查找 树 中 ， 字 


符 是 显 式 地 保存 在 结 点 中 的 一 一 只 有 在 沿 着 中 间 链 接 前 进 时 才 会 根据 字符 找到 表 中 的 键 , 请 见 图 5.2.10。 


查找 与 插入 操作 


用 三 向 单词 查找 树 实现 符号 表 API 中 的 查找 和 插 和 人 操作 很 简单 。 在 查找 时 ， 我 们 首先 比较 键 的 


首 字母 和 根 


结 点 的 字母 。 如 果 键 的 首 字母 较 小 , 就 选择 左 链接 ; 如 果 较 大 , 就 选择 右 链接 ; 如 果 相等 ， 
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则 选择 中 链接 。 然 后 ， 递 归 地 使 用 相同 的 算法 。 如 果 遇 到 了 一 个 空 链接 或 者 当 键 结束 时 结 点 的 值 为 
空 ， 那么 查找 未 命中 ; 如 果 键 结束 时 结 点 的 值 非 空 则 查找 命中 。 在 插入 一 个 新 键 时 ， 首 先进 行 查找 ， 
然后 和 在 单词 查找 树 一 样 ， 在 树 中 补 全 键 末尾 的 所 有 结 点 。 算 法 5.5 给 出 了 这 些 方 法 的 实现 细节 。 
这 种 实现 方式 等 价 于 将 R 向 单词 查找 树 中 的 每 个 结 点 实现 为 以 非 空 链接 所 对 应 的 字符 作为 键 
的 二 又 查 找 树 。 不 同 的 是 , 算法 5.4 使 用 的 是 由 键 索引 的 数组 。 图 5.2.10 显示 了 一 棵 单词 查找 树 
和 与 它 相 对 应 的 三 向 单词 查找 树 。 按 照 第 3 章 中 所 述 的 二 又 查找 树 和 其 他 排序 算法 之 间 的 对 应 关 





指向 所 有 首 字母 “pes 字 
小 于 s 的 键 的 链接 是 s 的 键 的 链接 






每 个 结 点 都 
含有 三 个 链 按 一 ~、 


图 5.2.10 ”一 棵 单词 查找 树 所 对 应 的 三 向 
单词 查找 树 


算法 5.5 ”基于 三 向 单词 查找 树 的 符号 表 


public class TST<Value> 
{ 
private Node root; 
private class Node 
{ 
char c; 
Node left, mid, right; 
Value val; 


} 


系 来 看 ， 我 们 可 以 发 现 三 向 单词 查找 树 与 三 向 字符 串 
快速 排序 之 间 的 对 应 关系 与 二 叉 查 找 树 与 快速 排序 以 
及 单词 查找 树 与 高 位 优先 的 排序 之 间 的 对 应 关系 是 一 
样 的。 图 5.1.12 和 图 5.1.17 分 别 显示 了 高 位 优先 的 字 
符 串 排 序 和 三 向 字符 串 快 速 排序 的 递归 调用 结构 ， 它 
们 与 图 5.2.10 中 由 同一 组 键 所 构造 的 单词 查找 树 和 三 
向 单词 查找 树 正 好 完全 对 应 。 单 词 查找 树 中 的 链接 所 
占用 的 空间 即 为 高 位 优先 的 字符 串 排序 中 的 计数 器 所 
占用 的 空间 。 三 向 分 支 为 两 者 都 提供 了 一 个 非常 有 效 
的 解决 方案 ， 请 见 图 5.2.11 和 图 5.2.12。 


get("sea") 匹配 : 选择 中 链接 ， 
继续 处 理 下 一 个 字符 





不 匹配 : 选择 左 链接 或 者 
右 链接 ， 但 当前 字符 不 变 


返回 和 键 的 尾 字 
符 相 关联 的 值 


图 5.2.11 三 向 单词 查找 树 中 的 查找 示例 


// 树 的 根 结 点 


// 字符 
// 左 中 右 子 三 向 单词 查找 树 
// 和 字符 串 相关 联 的 值 
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public Value get(String key) // 和 单词 查找 树 相同 (请 见 算法 5.4 ) 


private Node get(Node x, String key, int d) 


{ 
if (x == nul11) return nu11; 
char c = key.charAt(d); 
汪 不 (c < Xx.c) return get(x.left, key, d); 
else if (c > x.c) return get(x.right, key, d); 
else if (d < key.length() - 1) 

return get(x.mid, key, d+1); 

else return x; 

} 


public void put(String key, Value val) 
{ root = put(root, key, val, 0); } 


private Node put(Node x, String key, Value val, int d) 


char c = key.charAt(d); 
if (x == null) { x = new Node(); x.c = c; } 
和 下 (CcC < Xic) x.left = put(x.left, key, val, d); 
else if (c > x.c) x.right = put(x.right, key, val, d); 
else if (d < key.length() - 1) 
x.mid = put(x.mid, key, val, d+1); 
else x.val = val; 
return x; 
} 


} 
这 段 实现 使 用 含有 一 个 char 类 型 的 值 c 和 三 条 链接 的 结 点 构建 了 三 向 单词 查找 树 ， 其 中 子 树 的 键 
的 首 字母 分 别 小 于 《〈 左 子 树 ) 、 等 于 (中 子 树 ) 和 大 于 ( 右 子 树 ) c。 





标准 的 链接 数组 (R=26) 三 向 单词 查找 树 


指向 所 有 以 s (3 
开头 的 键 的 链接 “一 ~ 








一 ~ 指向 所 有 以 一 
Su 开头 的 键 
的 链接 746 
1 


图 5.2.12 单词 查找 树 结 点 示例 UE: 


5.2.4 三 向 单词 查找 树 的 性 质 

三 向 单词 查找 树 是 R 向 单词 查找 树 的 紧凑 表示 ， 但 两 种 数据 结构 的 性 质 截然 不 同 。 这 其 中 最 重 
要 的 不 同 可 能 在 于 命题 A 对 于 三 向 单词 查找 树 不 再 成 立 : 和 其 他 所 有 二 又 查找 树 一 样 ， 每 个 单词 查 
找 树 结 点 的 二 又 查找 树 表示 也 取决 于 键 的 插 人 顺序 。 
5.2.4.1 空间 

三 向 单词 查找 树 最 重要 的 性 质 就 是 每 个 结 点 只 含有 三 个 链接 ， 因 此 三 向 单词 查找 树 所 需要 空间 
远 小 于 对 应 的 单词 查找 树 。 
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命题 J。 由 入 个 平均 长 度 为 w 的 字符 串 构 造 的 三 向 单词 查找 树 中 的 链接 总 数 在 3N 到 3Nw 之 间 。 
证 明 。 同 命题 1。 


三 向 单词 查找 树 实际 使 用 的 内 存 空间 一 般 都 低 于 由 每 个 字符 三 个 链接 得 到 的 上 界 ， 因 为 有 相同 
前 级 的 键 会 共享 树 中 的 高 层 结 点 。 
5.2.4.2 ”查找 成 本 

要 计算 三 向 单词 查找 树 中 查找 ( 和 插入 ) 操作 的 成 本 ,需要 将 它 所 对 应 的 单词 查找 树 中 的 查找 
成 本 乘 以 遍历 每 个 结 点 的 二 又 查 找 树 所 需 的 成 本 。 


命题 K, 在 一 棵 由 NN 个 随机 字符 串 构 造 的 三 向 单词 查找 树 中 ,查找 未 命中 平均 需要 比较 字符 ~ InN 次 。 
除 ~ InN 次 外 ， 一 次 插入 或 命中 的 查找 会 比较 一 次 被 查找 的 键 中 的 每 个 字符 。 


证 明 。 由 代码 我 们 马上 可 以 得 到 插入 和 查找 命中 的 成 本 。 查 找 未 命中 的 成 本 的 证 明和 命题 HH 的 
简略 证 明 相 同 。 假 设 在 查找 路 径 上 除了 常数 个 结 点 (高 层 的 几 个 ) 之 外 的 其 他 所 有 结 点 均 为 由 
R 个 字符 值 随机 构造 的 二 又 查找 树 ， 上 且 树 的 平均 路 径 长 度 为 InRR， 因 此 将 时 间 成 本 logaN=]lnN/ 
lnR 乘 以 InR。 


在 最 坏 情 况 下 ， 一 个 结 点 可 能 变 成 一 个 完全 的 R 向 结 点 ， 不 平衡 且 像 一 条 链表 一 样 展 开 ， 因 此 
需要 乘 以 一 个 系数 R。 一般 的 情况 下 ， 在 第 一 层 ( 因为 根 结 点 类 似 于 一 棵 由 个 不 同 的 值 组 成 的 随 
机 二 叉 查 找 树 ) 甚至 是 其 下 的 几 层 ( 如 果 键 存在 公共 的 前 级 且 前 级 之 后 的 字符 最 多 可 能 有 RR 种 不 同 
的 取 值 ) 那么 进行 字符 比较 的 次 数 将 是 InR 或 者 更 少 , 之 后 对 于 大 多 数字 符 也 只 需 进 行 几 次 比较 ( 因 
为 指向 大 多 数 单 词 查找 树 结 点 的 非 空 链接 的 分 布 十 分 稀 琉 ) 。 未 命中 的 查找 一 般 都 需要 若干 次 字符 
比较 并 结束 于 单词 查找 树 高 层 的 某 个 空 链接 。 在 命中 的 查找 中 ， 被 查找 的 键 中 的 每 个 字符 都 需要 并 
且 只 需要 一 次 比较 ， 因 为 它们 大 多 数 都 是 单词 查找 树 底 部 的 单 向 分 支 上 的 结 点 。 
5.2.4.3 ”字母 表 

使 用 三 向 单词 查找 树 的 最 大 好 处 是 它 能 够 很 好 地 适应 实际 应 用 中 可 能 出 现 的 被 查找 键 的 不 规则 
性 。 需 要 特别 注意 到 的 是 ， 不 应 该 按照 用 例 提供 的 字母 表 构 造 字符 串 ， 这 对 于 单词 查找 树 很 关键 。 
这 主要 会 产生 两 点 影响 。 首 先 ， 实 际 应 用 中 的 键 都 来 自 于 大 型 字母 表 ， 而 且 字 符 集中 的 各 个 字符 的 
使 用 是 非常 不 均衡 的 。 有 了 三 向 单词 查找 树 ， 我 们 可 以 使 用 256 个 字符 的 ASCII 编码 或 者 65 536 
个 字符 的 Unicode 编码 ， 而 不 必 担 心 256 向 分 支 或 者 65 536 回 分 支 带 来 的 巨大 开销 ， 也 不 必 判 断 哪 
些 才 是 相关 的 字符 集 。 非 罗马 字母 表 的 Unicode 字符 串 中 可 能 含有 上 千 种 字符 一 一 三 向 单词 查找 树 
特别 适合 于 可 能 含有 此 类 字符 的 Java 标准 String 类 型 的 键 。 其 次 ， 实 际 应 用 程序 中 的 键 常常 有 着 
类 似 的 结构 ， 这 在 不 同 的 应 用 之 中 可 能 不 同 。 键 的 一 部 分 可 能 只 会 使 用 字母 ， 而 另 一 部 分 可 能 只 会 
使 用 数字 。 在 加 利 福 尼 亚 州 的 车 牌号 的 例子 中 ， 第 二 、 三 、 四 个 字符 都 是 大 写字 母 ( R=26 ) ， 而 其 
他 字符 都 是 数字 (R=10 ) 。 在 这 种 键 构造 的 三 向 单词 查找 树 中 ， 一 部 分 结 点 会 被 表示 为 10 结 点 的 
二 又 查找 树 ( 键 的 数字 部 分 ) ， 另 一 部 分 结 点 会 被 表示 为 26 结 点 的 二 叉 查 找 树 ( 键 的 字母 部 分 ) 。 
这 种 结构 的 生成 是 自动 的 ， 无 需 对 键 进行 特别 分 析 。 
5.2.4.4 ”前 缀 匹配 、 查 找 所 有 键 和 通配符 匹配 

因为 三 向 单词 查找 树 也 是 单词 查找 树 ， 前 文中 单词 查找 树 的 1ongestPrefixOf() 、keys()、 
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keysWithPrefix() 和 keyThatMatch() 方法 的 实现 可 以 很 容易 移植 过 来 。 这 个 练习 能 够 加 深 你 对 
单词 查找 树 和 三 向 单词 查找 树 的 理解 ( 请 见 练习 5.2.9 ) 。 和 查找 操作 一 样 ， 这 里 也 存在 空间 和 时 间 
的 交换 ( 使 用 线性 级 别 的 内 存 空间 ,但 每 个 字符 的 比较 次 数 需要 乘 以 InR ) 。 
5.2.4.5 ”删除 操作 

三 向 单词 查找 树 中 的 delete 0 方法 要 更 复杂 一 些 。 从 本 质 上 来 说 ， 每 个 将 被 删除 的 字符 都 属 
于 一 棵 二 又 查找 树 。 在 单词 查找 树 中 ， 只 需 将 链接 数组 中 和 该 字符 对 应 的 元 素 置 为 空 即 可 删 去 它 的 
链接 。 在 三 向 单词 查找 树 中 ， 需 要 用 在 二 又 查找 树 中 删除 结 点 的 方法 来 删 去 与 该 字符 对 应 的 结 点 。 
5.2.4.6 混合 三 向 单词 查找 树 

简单 改进 一 下 基于 三 向 单词 查找 树 的 查找 方式 : 使 用 一 个 大 型 显 式 的 多 向 根 结 点 。 实 现 它 最 简 
单 的 办 法 就 是 维护 一 张 含 有 R 棵 三 向 单词 查找 树 的 表 : .每 一 棵 都 对 应 着 键 的 首 字 母 的 一 种 可 能 的 值 。 
如 果 R 不 大 ， 那 可 以 使 用 键 的 头 两 个 字母 ( 表 的 大 小 变 为 R) 。 这 种 方法 有 效 的 前 提 是 键 的 首 字母 
的 分 布 必须 均匀 。 这 样 得 到 的 混合 查找 算法 和 人 们 在 电话 黄页 中 查找 姓名 的 行为 很 相似 。 查 找 的 第 
一 步 是 进行 多 向 判断 (“让 我 们 来 看 看 , 它 的 首 字母 是 “A””), 接 下 来 可 能 是 某 种 双向 判断 (“ 它 
在 “Andrews” 之 前 , 但 在 “Aitken” 之 后 ”) ， 然 后 就 是 一 系列 字符 匹配 ( ““Algonquin”，…… 
没有 ，“Algorithms” 不 在 列表 之 中 ， 因 为 没有 以 “Algor” 开 头 的 单词 ! ”) 。 这 些 程序 可 能 是 查 
找 字符 串 类 型 的 键 的 最 快 算法 。 
5.2.4.7 单 向 分 支 

和 单词 查找 树 一 样 ， 我们 也 可 以 通过 将 键 的 尾 字母 变 为 叶子 结 点 并 在 内 部 结 点 中 消除 单 向 分 支 
来 提高 三 向 单词 查找 树 的 空间 利用 率 。 





命题 L。 由 X 个 随机 字符 串 构 造 的 根 结 点 进行 了 尺 向 分 支 且 不 含有 外 部 单 向 分 支 的 三 向 单词 查 
找 树 中 ， 一 次 插入 或 查找 操作 平均 需要 进行 约 InN-tinR 次 字符 比较 。 


证 明 。 这 些 粗略 的 估计 也 可 以 由 命题 K 的 证 明 得 到 。 假 设 在 查找 路 径 上 除了 常数 个 结 点 (高 
层 的 几 个 ) 之 外 的 其 他 所 有 结 点 均 为 由 R 个 字符 值 组 成 的 二 又 查找 树 ， 因 此 需要 将 时 间 成 本 
乘 以 InR。 


尽管 将 算法 调 优 至 最 佳 性 能 是 一 个 非常 大 的 诱惑 ， 我 们 不 应 该 忘记 三 向 单词 查找 树 最 吸引 人 的 
特点 ， 那 就 是 不 必 担 心 对 特定 应 用 场景 的 依赖 ， 即 使 是 在 没有 调 优 的 情况 下 也 能 提供 不 错 的 性 能 。 ”|[751 


5.2.5 ”应 该 使 用 字符 串 符 号 表 的 哪 种 实现 

和 字符 串 排 序 一 样 ， 我 们 自然 也 想 对 比 一 下 已 经 学 习 过 的 字符 串 查 找 方法 和 第 3 章 中 学 习 
的 通用 方法 。 表 5.2.3 总 结 了 已 讨论 过 的 各 种 算法 的 重要 性 质 ( 二 又 查找 树 、 红 黑 树 和 散 列 表 的 
条 目 来 自 第 3 章 ， 作 为 比较 之 用 ) 。 对 于 特定 的 应 用 场景 ， 这 些 条 目 有 指导 意义 ， 但 并 非 绝 对 
的 结论 ， 因 为 在 研究 符号 表 实现 的 过 程 中 发 现 许多 因素 〈 例如 键 的 性 质 和 混合 操作 的 顺序 ) 都 
会 产生 影响 。 

如 果 空 间 足 够 ，R 向 单词 查找 树 的 速度 是 最 快 的 ， 能 够 在 常数 次 字符 比较 内 完成 查找 。 对 于 大 
型 字母 表 ,R 向 单词 查找 树 所 需 的 空间 可 能 无 法 满足 时 , 三 向 单词 查找 树 是 最 佳 的 选择 , 因为 它 对 “ 字 
符 ” 比 较 次 数 是 对 数 级 别 的 比较 ， 而 二 又 查找 树 中 键 的 比较 次 数 是 对 数 级 别 的 。 散 列表 也 是 很 有 竞 
争 力 的 ， 但 如 前 文 所 述 ， 它 不 支持 有 序 性 的 符号 表 操 作 ， 也 不 支持 扩展 的 字符 类 API 操作 ， 例 如 前 
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表 5.2.3 ”各 种 字符 串 查找 算法 的 性 能 特点 






处 理由 大 小 为 R 的 字母 表 构 造 的 N 个 字符 串 
(平均 长 度 为 wm) 的 增长 数量 级 


未 命中 查找 检查 的 字符 数量 内 存 使 用 


ci(lgN) 64N 











算法 数据 结构 ) 











二 叉 树 查找 (BST) 适用 于 随机 排列 的 键 


2-3 树 查找 ( 红 黑 树 ) clgN) 64N 有 性 能 保证 
线性 探测 法 (并行 数 组 ) w 32N~128N 内 置 类 型 
缓存 散 列 值 
字典 树 查 找 (R 向 单词 查找 树 ) logaN (8R+56)N~(8R+56) | 适用 于 较 短 的 键 和 较 小 的 
Nw 字母 表 
字典 树 查 找 ( 三 向 单词 查找 树 ) 1.39lgN 64N~64Nw 适用 于 非 随 机 的 键 





问 ”Java 的 系统 排序 方法 使 用 了 本 节 介 绍 的 方法 来 查找 String 类 型 的 键 吗 ? 


753| 答 没有 。 
图 练习 
5.2.1 将 以 下 键 按 照 顺序 插 和 人 一 棵 尺 向 空 单词 查找 树 之 中 并 画 出 结果 (忽略 空 链接 ) : no is th ti 


fo al go pe to co to th ai of th pa。 

5.2.2 ”将 以 下 键 按 照 顺 序 插入 一 棵 空 三 向 单词 查找 树 之 中 并 画 出 结果 ( 忽略 空 链 接 ) : no is th ti fo 
al go pe to co to th ai of th pa。 

5.2.3 将 以 下 键 按 照 顺 序 插 人 一 棵 尺 向 空 单词 查找 树 之 中 并 画 出 结果 (忽略 空 链接 ) : now is the 
time for all good people to come to the aid of。 

5.2.4 将 以 下 键 按 照 顺序 插入 一 棵 空 三 向 单词 查找 树 之 中 并 画 出 结果 (忽略 空 链接 ) : now is the 
time for all good people to come to the aid of。 

5.2.5 ”给 出 非 递 归 版 本 的 TrieST 和 TST。 

5.2.6 对 于 StringSET 数据 类 型 ,实现 以 下 API， 如 表 5.2.4 所 示 。 


表 5.2.4 字符 串 集合 的 数据 类 型 的 API 
public class StringSET 





StringSET() 创建 一 个 字符 串 的 集合 
void add(String key) 将 key 添加 到 集合 中 
void delete(String key) 从 集合 中 删除 key 
boolean contains(String key) key 是 否 存在 于 集合 中 
boolean 1isEmpty() 集合 是 否 为 空 
int size() 集合 中 的 键 的 数量 


754 String toString() 对 象 的 字符 串 表示 


5.2 单词 查找 树 二 491 


图 提高 是 


5.2.7 三 向 单词 查找 树 中 的 空 字符 串 。 三 向 单词 查找 树 (TST ) 的 代码 未 能 正确 处 理 空 字符 串 。 说 明 原 
因 并 给 出 修正 方案 。 

5.2.8 单词 查找 树 的 有 序 性 操作 。 为 TrieST 实 现 floor()、ceiling()、rank() 和 select() 方法 (来 
自 第 3 章 标 准 有 序 性 符号 表 的 API) 。 

5.2.9 三 向 单词 查找 树 的 扩展 操作 。 为 三 问 单词 查找 树 实现 keys() 和 本 节 所 介绍 的 几 种 扩展 操作 : 

longestPrefixOf()、keysWwithPrefix() 和 keysThatMatch() 。 

5.2.10 size0) 方法 。 为 TrieST 和 TST 实现 最 为 即时 的 sizeQ 方法 (在 每 个 结 点 中 保存 子 树 中 的 键 
的 总 数 ) 。 

5.2.11 外 部 单项 分 支 。 为 TrieST 和 TST 添加 消除 外 部 单 向 分 支 的 代码 。 

5.2.12 ”内 部 单项 分 支 。 为 TrieST 和 TST 添加 消除 内 部 单 向 分 支 的 代码 。 

5.2.13 R? 向 分 支 的 根 结 点 的 三 向 单词 查找 树 。 如 正文 所 述 ， 为 TST 添加 代码 ， 在 前 两 层 结 点 中 实现 多 
向 分 支 。 

5.2.14 长度 为 上 的 唯一 子 字符 串 。 编 写 一 个 TST 的 用 例 ， 从 标准 输入 读 取 文本 并 计算 其 中 长 度 为 工 的 
唯一 子 字符 串 的 数量 。 例 如 ， 如 果 输 入 为 cgcgggcgcg, 那么 长 度 为 3 的 唯一 子 字 符 串 就 有 5 个 : 
cgc、cgg、gcg、ggc 和 ggg。 提 示 : 使 用 字符 串 方 法 substring(i,i+L) 来 提取 第 i 个子 字符 
串 并 将 它 插入 到 一 张 符号 表 中 。 

5.2.15 ”唯一 子 字符 串 。 编 写 一 个 TST 的 用 例 ， 从 标准 输入 读 取 文本 并 计算 其 中 任意 长 度 的 唯一 子 字符 
串 的 数量 。 后 级 树 能 够 高 效 完成 这 个 任务 一 一 请 见 第 6 章 。 

5.2.16 文档 的 相似 性 。 编 写 一 个 TST 的 静态 方法 用 例 ， 接 受 一 个 int 值 L 和 两 个 文件 名 作为 命令 行 参 
数 并 计算 两 份 文档 的 “L- 相似 性 ”: 各 个 频率 向 量 之 间 的 欧 拉 距离 ， 其 中 频率 向 量 为 各 个 长 度 
为 3 的 子 字符 串 ( trigram ) 的 出 现 次 数 除 以 所 有 长 度 为 3 的 子 字符 串 的 总 数 。 给 出 一 个 静态 方 
法 main()， 接 受 一 个 int 值 L 作为 命令 行 参数 ， 从 标准 输入 中 获取 一 系列 文件 名 并 打印 出 一 个 
矩阵， 以 显示 所 有 文档 之 间 的 L- 相似 性 。 755 

5.2.17 拼写 检查 。 编 写 一 个 TST 的 用 例 Spe11Checker， 从 命令 行 接受 一 个 英语 字典 文件 作为 参数 ， 然 
后 从 标准 输入 读 取 一 个 字符 串 并 打印 所 有 不 在 字典 中 的 单词 。 请 使 用 字符 串 集合 数据 类 型 。 

5.2.18 ”和 白 名 单 ,编写 一 个 TST 的 用 例 ,解决 1.1 节 和 3.5 节 中 介绍 并 讨论 过 的 (请 见 3.5.2.2 节 ) 白 名 单 问题 。 

5.2.19 ”随机 电话 号 码 。 编 写 一 个 TrieST 的 用 例 (R=10 ) ， 从 命令 行 接受 一 个 int 值 N 并 打印 出 N 个 
形 如 (xxx) xxx-xxxx 的 随机 电话 号 码 。 使 用 符号 表 避 人 免 出 现 重复 的 号 码 。 使 用 本 书 网 站 上 的 
AreaCodes.txt 来 避免 打印 出 不 存在 的 区 号 。 

5.2.20 是 否 含有 前 组 。 为 StringSET 类 ( 请 见 练习 5.2.6 ) 添加 一 个 方法 containsPrefix()， 接 受 一 个 字符 
串 s 作为 输入 ， 如 果 集 合 中 存在 某 个 以 s 作为 前 组 的 字符 串 时 返回 true。 

5.2.21 子 字 符 串 匹配 。 给 定 一 列 ( 短 ) 字 符 串 , 你 的 任务 是 找到 所 有 含有 用 户 所 寻找 的 字符 串 s 的 字符 串 。 
为 此 任务 设计 一 份 API 并 给 出 一 个 TST 用 例 来 实现 这 个 API。 提 示 : 将 每 个 单词 的 所 有 后 级 ( 例 
如 : string, tring, ring，ing, ng, g ) 插入 到 TST 中。 

5.2.22 打字 的 猴子 。 假 设 有 一 只 会 打字 的 猴子 ， 它 打出 每 个 字母 的 概率 为 p， 结 束 一 个 单词 的 概率 为 
1-26p。 编 写 一 个 程序 ， 计 算 产 生 各 种 长 度 的 单词 的 概率 分 布 。 其 中 如 果 "abc" 出 现 了 多 次 ， 只 
计算 一 次 。 
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5.2.23 


5.2.24 


5.2.25 


5.2.26 


重复 元 素 ( 再 续 ) 。 使 用 StringSET ( 请 见 练习 5.2.6 ) 代替 HashSET 重新 完成 练习 3.5.30， 比 
较 两 种 方法 的 运行 时 间 。 然 后 使 用 dedup 为 N=10”"、10” 和 10” 运行 实验 ， 用 随机 1ong 型 字符 串 
重复 实验 并 讨论 结果 。 

拼写 检查 器 。 使 用 本 书 网 站 上 的 dictionary.txt 文件 和 3.5.2.2 节 中 的 BlackFilter 用 例 重新 完成 
练习 3.5.31 并 打印 出 一 个 文本 文件 中 所 有 拼 错 的 单词 。 用 该 用 例 处 理 wartxt 文件 ， 比 较 TrieST 
和 TST 的 性 能 并 讨论 结果 。 

字典 。 重 新 完成 练习 3.5.32: 在 一 个 需要 高 性 能 的 场景 中 研究 一 个 类 似 于 LookupCSy 的 用 例 的 
性 能 (使 用 TrieST 和 TST ) 。 确切 地 说 ,设计 一 个 查询 生成 器 来 取代 从 标准 输入 接受 命令 ， 对 
大 量 输入 和 大 量 查 询 进 行 性 能 测试 。 

索引 。 重 新 完成 练习 3.5.33: 在 一 个 需要 高 性 能 的 场景 中 研究 一 个 类 似 于 LookupIndex 的 用 例 
的 性 能 (使 用 TrieST 和 TST ) 。 确 切 地 说 ， 设 计 一 个 查询 生成 器 来 取代 从 标准 输入 接受 命令 ， 
对 大 量 输入 和 大 量 查询 进行 性 能 测试 。 
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5.3” 子 字符 串 查 找 


字符 串 的 一 种 基本 操作 就 是 子 字符 串 查 找 : 给 定 一 段 长 度 为 NN 的 文本 和 一 个 长 度 为 M 的 模式 
(pattem ) 字符 串 ， 在 文本 中 找到 一 个 和 该 模式 相符 的 子 字符 串 请 见 图 5.3.1。 解 决 该 问题 的 大 部 分 算 
法 都 可 以 很 容易 地 扩展 为 找 出 文本 中 所 有 和 该 模式 相符 的 子 字符 串 、 统 计 该 模式 在 文本 中 的 出 现 次 数 、 
或 者 找 出 上 下 文 (和 该 模式 相符 的 子 字 符 串 周围 的 文字 ) 的 算法 。 


模式 一 >N 三 E Di 下 
开交 Fe 了 网 页 省 


| 


匹配 
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图 5.3.1 子 字 符 串 的 查找 


当 你 在 文本 编辑 器 或 是 浏览 器 中 查找 某 个 单词 时 ， 就 是 在 查找 子 字 符 串 。 事 实 上 ， 该 问题 的 原 
始 动机 就 是 为 了 支持 这 种 查找 操作 。 字 符 串 查找 的 另 一 个 经 典 应 用 是 在 截获 的 通信 内 容 中 寻找 某 种 
重要 的 模式 。 一 位 军队 将 领 感 兴趣 的 可 能 是 在 截获 的 文本 中 寻找 和 “拂晓 进攻 ”类 似 的 字句 。 一 名 
黑客 感 兴趣 的 可 能 是 在 内 存 中 查找 与 “Password:” 相 关 的 内 容 。 在 今天 的 世界 中 ， 我 们 经 常 在 互联 
网 的 海量 信息 中 查找 字符 串 。 

为 了 更 好 地 理解 算法 ， 请 记 住 模式 相对 于 文本 是 很 短 的 (M 可 能 等 于 100 或 者 1000 ) ， 而 文 
本 相对 于 模式 是 很 长 的 (NN 可 能 等 于 100 万 或 者 10 亿 ) 。 在 字符 串 查 找 中 ， 一 般 会 对 模式 进行 预 
处 理 来 支持 在 文本 中 的 快速 查找 。 

字符 串 查找 是 一 个 很 有 趣 而 且 也 很 经 典 的 问题 ， 人 们 发 明了 几 个 截然 不 同 ( 且 令 人 惊讶 的 ) 算 
法 ,它们 不 仅 产 生 了 一 系列 能 够 实际 应 用 的 查找 方法 ,而且 也 展示 了 许多 重要 的 算法 设计 技巧 。 


5.3.1 历史 简介 

我 们 将 要 学 习 的 几 种 算法 有 一 段 有 趣 的 历史 。 我 们 在 这 里 进行 总 结 并 帮助 大 家 对 它们 的 地 位 有 
一 个 正确 的 认识 。 

子 字符 串 查找 有 一 个 简单 而 使 用 广泛 的 暴力 算法 。 虽 然 它 在 最 坏 情况 下 的 运行 时 间 与 MN 成 正 
比 ， 但 是 在 处 理 许多 应 用 程序 中 的 字符 串 时 ( 除了 一 些 变态 的 情况 之 外 ) ， 它 的 实际 运行 时 间 一 般 
与 M+ NM 成 正比 。 另 外 ， 它 很 好 地 利用 了 大 多 数 计算 机 系统 中 标准 的 结构 特性 ， 因 此 即使 是 更 加 巧 
妙 的 算法 也 很 难 超越 它 经 过 优化 后 的 版 本 的 性 能 。 

在 1970 年 ，S.Cook 在 理论 上 证 明了 一 个 关于 某 种 特定 类 型 的 抽象 计算 机 的 结论 。 这 个 结论 暗 
示 了 一 种 在 最 坏 情况 下 用 时 也 只 是 与 M+ X 成 正比 的 解决 子 字 符 串 查找 问题 的 算法 。D.EKnuth 和 
VR.Pratt 改进 了 Cook 用 来 证 明定 理 的 框架 ( 并 非 为 实际 应 用 所 设计 ) 并 将 它 提炼 为 一 个 相对 简单 
而 实用 的 算法 。 这 看 起 来 是 一 个 鲜 有 但 令 人 满意 的 将 理论 结果 ( 意外 的 ) 立 刻 转化 为 实际 应 用 的 例子 。 
但 实际 上 ，I.H.Morris 在 实现 一 个 文本 编辑 器 时 ， 为 了 解决 某 个 未 手 的 问题 ( 他 希望 能 够 在 文本 中 
避免 “ 回 退 ”) 也 发 明了 几乎 相同 的 算法 。 殊 途 同 归 的 两 种 方式 得 到 了 同一 种 算法 ， 这 说 明 它 是 这 
个 问题 的 一 种 基础 的 解决 方案 。 

Knuth、Morris 和 Pratt 直到 1976 年 才 发 表 了 他 们 的 算法 。 在 这 段 时 间 里 , R.S.Boyer 和 J.S.Moore 
(以 及 R.WGosper 独立 地 ) 发 明了 一 种 在 许多 应 用 程序 中 都 非常 快 的 算法 ， 该 算法 一 般 只 会 检查 文 
本 字符 串 中 的 一 部 分 字符 。 许 多 文本 编辑 器 都 使 用 了 这 个 算法 ， 以 显著 降低 字符 串 查找 的 响应 时 间 。 
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Knuth-Morris-Pratt 算法 和 Boyer-Moore 算法 都 需要 对 模式 字符 串 进行 复杂 的 预 处 理 ， 这 个 过 程 
十 分 星 涩 而 且 也 限制 了 它们 的 应 用 范围 。 (事实 上 ， 有 位 系统 程序 员 觉 得 Morris 算法 实在 是 太 难 懂 
了 ， 就 干脆 用 暴力 算法 代替 了 。 ) 

在 1980 年 ，M.O.Rabin 和 R.M.Karp 使 用 散 列 开发 出 了 一 种 与 暴力 算法 几乎 一 样 简单 但 运行 时 
间 与 WM+X 成 正比 的 概率 极 高 的 算法 。 另 外 ， 它 们 的 算法 还 可 以 扩展 到 二 维 的 模式 和 文本 中 ， 这 使 
得 它 比 其 他 算法 更 适用 于 图 像 处 理 。 

这 段 历史 说 明和 人 们 在 不 断 地 研究 更 好 的 算法 。 事 实 上 大 家 都 认为 ， 这 个 经 典 问题 还 将 会 有 很 大 
的 发 展 。 

5.3.2 ”暴力 子 字符 串 查找 算法 
子 字符 串 查 找 的 一 个 最 显而易见 的 方法 就 是 在 文本 中 模式 可 能 出 现 匹 配 的 任何 地 方 检查 匹配 是 


否 存 在 。 如 左 侧 框 注 所 示 的 search() 方法 就 是 在 文本 字符 串 txt 中 查找 模式 字符 串 pat 第 一 次 出 现 
的 位 置 。 这 段 程序 使 用 了 一 个 指 


public static int search(String pat, String txt) 针 跟踪 文本 ， 一 个 指针 ]j 跟 踪 
Et 模式 。 对 于 每 个 1， 代 码 首先 将 j 
in = pat.len : bi 3 
ton .el te Mand th 重 置 为 0 并 不 断 将 它 增 大 ， 直 至 
for (int 1 = 0 1 <=N- M; i++) 找到 了 一 个 不 匹配 的 字符 或 是 模 
int j; 式 结束 (j==M) 为 止 , 请 见 图 5.3.2。 
人 如 果 在 模式 字符 串 结束 之 前 文本 
ee es 字符 串 就 已 经 结束 了 (i 一 N-M+1)， 
诉 人 se MD Tretorn 9 7/7 黎 到 严 配 那么 就 没有 找到 匹配 : 模式 字符 
Na N; // 未 找到 匹配 串 在 文本 中 不 存在 。 我 们 约定 在 
} 不 匹配 时 返回 N 的 值 。 

:典型 的 字符 理应 族 

暴力 子 字 符 申 查找 在 典型 的 字符 串 处 理应 用 程 


序 中 ， 索 引 了 增长 的 机 会 很 少 ， 
因此 该 算法 的 运行 时 间 与 N 成 正比 。 绝 大 多 数 比 较 在 比较 第 一 个 字符 时 就 会 产生 不 匹配 。 例 如 ， 
假设 你 在 这 一 段 文 字 之 中 查找 pattern 这 个 模式 字符 串 。 在 找到 模式 字符 串 的 第 一 次 匹配 之 前 共有 
191 个 单词 ， 其 中 只 有 7 个 的 首 字 母 是 p ( 且 没 有 以 pa 开头 的 单词 ) 。 因 此 字符 比较 的 总 次 数 为 
191+7， 也 就 是 说 文本 中 每 个 字符 平均 需要 比较 1.036 次 。 从 男 一 个 方面 来 说 ， 没 人 能 够 保证 算法 
总 是 如 此 高 效 。 例 如 ,模式 字符 串 可 能 以 一 连 串 的 A 开头 。 如 果 是 这 样 且 文本 也 包含 含有 一 大 串 A 


的 字符 串 ， 那 么 字符 串 的 查找 就 可 能 会 很 慢 。 


命题 M。 在 最 坏 情况 下 ， 暴 力 子 字符 串 查 找 算法 在 长 度 为 N 的 文本 中 查找 长 度 为 M 的 模式 需 
要 ~NM 次 字符 比较 ， 请 见 图 5.3.3。 


证 明 。 一 种 最 坏 的 情况 是 文本 和 模式 都 是 一 连 串 的 A 接 一 个 B。 那 么 ， 对 于 NM+1 个 可 能 的 
匹配 位 置 ， 模式 中 的 所 有 字符 都 需要 和 文本 比 对 ， 总 成 本 为 MIN-M+1)。 一 般 来 说 M 远 小 于 N， 
因此 总 成 本 为 ~NMs 


证 “本 向 工交 证 
RE 一 二 有 BA CC ADABRAE 
0 2 2 A BB R a=<—=pat 
到 节 和 A 红色 的 元 素 
2 1 3 A B 表示 匹配 失败 
了 灰色 的 元 素 
3 省 3 A 有 竺 匹配 
4 1 5 A B 
5 0 5 黑色 的 元 素 5 
和 文本 匹配 
和 10 A B RA 
当 j 和 M 相 等 时 返回 1 人 
匹配 成 功 


图 5.3.2 ”暴力 子 字符 串 查找 ( 另 见 彩 插 ) 
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这 种 奇怪 的 字符 串 不 太 可 能 出 现在 英文 文本 之 中 ,但 在 其 他 应 用 场景 中 是 完全 可 能 的 ( 例如 二 


进 制 文本 ) ， 因 此 我 们 需要 更 好 的 算法 。 


1 证 条 夫 于 计生 证 
Xt 人 太太 人 人 A 

0 这 壕 ， WE 人 a 

PR A A AAB 

2。 地- 入 A A A AB 

2 A AA AB 

条 :证 沪 A A AAB 

B ‘5 “10 大 流 六 琶 


图 5.3.3 暴力 子 字符 串 查 找 (最 坏 情况 ) 


下 方 框 注 所 示 的 该 算法 的 男 一 种 实现 是 有 指导 意义 的 。 和 以 前 一 样 ， 程 序 使 用 了 一 个 指针 i 跟 
踪 文 本 ， 一 个 指针 j 跟踪 模式 。 在 i 和 j 指向 的 字符 相 匹 配 时 ， 代 码 进行 的 字符 比较 和 上 一 个 实现 
相同 。 请 注意 ， 这 段 代码 中 的 i 值 相当 于 上 一 段 代码 中 的 i+j: 它 指向 的 是 文本 中 已 经 匹配 过 的 字 
符 序列 的 末端 (i 以 前 指向 的 是 这 个 序列 的 开头 ) 。 如 果 i 和 j 指向 的 字符 不 匹配 了 ， 那 么 需要 回 
退 这 两 个 指针 的 值 : 将 j 重新 指向 模式 的 开头 ,将 i 指向 本 次 匹配 的 开始 位 置 的 下 一 个 字符 。 


public static int search(String pat, String txt) 
和 
int j, M = pat.length(); 
int 1，N = txt.1lengthO; 
for (i=0,j=0;i<N &]j < M; i++) 
{ 
if (txt.charAt(i) == pat.charAt(j)) j++; 
Slop En 


} 
if (j == M) return i - M; // 找到 匹配 
else return N; // 未 找到 匹配 


暴力 子 字符 匹配 算法 的 另 一 种 实现 ( 显 式 回 退 ) 
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5.3.3 ”Knuth-Morris-Pratt 子 字 符 串 查找 算法 


Knuth、Morris 和 Pratt 发 明 的 算法 的 基本 思想 是 当 出 现 不 匹配 时 ,就 能 知晓 一 部 分 文本 的 内 容 ( 因 
为 在 匹配 失败 之 前 它们 已 经 和 模式 相 匹 配 ) 。 我 们 可 以 利用 这 些 信息 避免 将 指针 回 退 到 所 有 这 些 已 
知 的 字符 之 前 。 

举 一 个 具体 的 例子 。 假 设 字母 表 中 只 有 两 个 字符 ， 查 找 的 模式 字符 串 为 B AAAAAAAA 
A 。 现 在 ,假设 已 经 匹配 了 模式 中 的 5 个 字符 ,第 6 个 字符 匹配 失败 。 当 发 现 不 匹配 的 字符 时 ， 可 
以 知道 文本 中 的 前 6 个 字符 肯定 是 B A A A A B (前 5 个 匹配 ,第 6 个 失败 ) ,文本 指针 现在 指向 
的 是 末尾 的 字符 B。 你 可 以 观察 到 ,这 里 不 需要 回 退 文本 指针 i， 因为 正文 中 的 前 4 个 字符 都 是 A， 
均 与 模式 的 第 一 个 字符 不 匹配 。 男 外 ，i 当前 指向 的 字符 B 和 模式 的 第 一 个 字符 相 匹 配 ， 所 以 可 以 
直接 将 i 加 1， 以 比较 文本 中 的 下 一 个 字符 和 模式 中 的 第 二 个 字符 。 这 说 明 ， 对 于 这 个 模式 ， 可 以 
将 暴力 子 字符 串 查 找 算法 实现 中 的 else 语句 替换 为 j=1( 且 并 不 将 1 加 1) 。 因 为 循环 中 1i 的 值 
并 未 变化 ， 这 种 方法 最 多 只 会 进行 N 次 字符 比较 。 这 次 特殊 变化 的 实际 影响 仅 限于 这 种 特殊 情况 ， 
但 这 种 想法 是 值得 思考 的 一 一 Knuth-Morris-Pratt 算法 正 是 这 种 情况 的 一 般 化 。 令 人 惊讶 的 是 ， 在 匹 
配 失败 时 总 是 能 够 将 j 设 为 某 个 值 以 使 i 不 回 退 ， 请 见 图 5.3.4。 

在 匹配 失败 时 ， 如 果 模 式 字 符 串 中 的 某 处 可 以 和 匹配 失败 处 的 正文 相 匹配 ， 那 么 就 不 应 该 完全 
跳 过 所 有 已 经 匹配 的 所 有 字符 。 例 如 ， 当 在 文本 A A B A A B A A A A 中 查找 模式 A A BA A A 
时 ， 我 们 首先 会 在 模式 的 第 5 个 字符 处 发 现 匹 配 失败 ， 但 是 应 该 在 第 3 个 字符 处 继续 查找 ， 否 则 就 
会 错过 已 经 匹配 的 部 分 。KMP 算法 的 主要 思想 是 提前 判断 如 何 重新 开始 查找 ， 而 这 种 判断 只 取决 
于 模式 本 身 。 


i 
2 | 
vn 
在 第 6 个 字符 > 
匹配 失败 之 后 一 一 B A AAA A -< 一 模式 字符 串 
暴力 子 字符 串 查 B 
找 算法 会 加 退 这 一 B 
里 并 重新 尝试 。 再 坛 一 ”_B 
再 试 一 -B 
再 试 BAAAAAAAAA 
再 试 
.0 
但 其 实 不 一 一 AA 
需要 回 退 


图 5.3.4 ”文本 字符 串 的 指针 在 子 字符 串 查找 中 的 回 退 


5.3.3.1 模式 指针 的 回 退 

在 KMP 子 字 符 串 查 找 算法 中 ， 不 会 回 退 文本 指针 i， 而 是 使 用 一 个 数组 dfa[] [] 来 记录 匹配 
失败 时 模式 指针 j 应 该 回 退 多 远 。 对 于 每 个 字符 c, 在 比较 了 c 和 pat.charAt(j) 之 后 , dfa[c][j] 
表示 的 是 应 该 和 下 个 文本 字符 比较 的 模式 字符 的 位 置 。 在 查找 中 ，dfs[txt.charAt(i)][j] 是 在 
比较 了 txt.charAt(i) 和 pat.charAt(j) 之 后 应 该 和 txt.charAt(i+1) 比较 的 模式 字符 位 置 。 
在 匹配 时 会 继续 比较 下 一 个 字符 ， 因 此 dfa[pat.charAt(j)][j] 总 是 j+1。 在 不 匹配 时 ,不仅 可 
以 知道 txt.charAt(i) 的 字符 ， 也 可 以 知道 正文 中 的 前 j-1 个 字符 ,它们 就 是 模式 中 的 前 j-1 个 
字符 。 对 于 每 个 字符 c， 你 可 以 将 这 个 过 程 想象 为 首先 将 模式 字符 串 的 一 个 副本 覆盖 在 这 j 个 字符 
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文本 (也 是 模式 本 身 ) 


之 上 (模式 中 的 前 j-1 个 字符 以 及 字 j pat.charAt(j) dfa 0 


符 c 一 需要 判断 的 是 当 这 些 字符 就 是 ABABAC 
txt.charAt(i-j+1..i) 时 应 该 怎么 0 A 1 A 
办 ) ， 然 后 从 左 向 右 滑动 这 个 副本 直到 ee 
所 有 重奏 的 字符 都 相互 匹配 (或 者 没有 Cc 
相 匹 配 的 字符 ) 时 才 停 下 来 。 这 将 指明 2 再 
模式 字符 串 中 可 能 产生 匹配 的 下 一 个 1 B 2 AB 
位 置 。 和 txt ,charAt(i+1) (dfa[txt. 1 
charAt(i)] [j]) 比较 的 模式 字符 的 索 AC 
引 正 是 重 盖 字 符 的 数量 , 请 见 图 5.3.5。 9 
5.3.3.2 ”KMP 查找 算法 2 A 3 ABA 

只 要 计算 出 了 dfa[][] 数组 ， 就 
得 到 了 后 面 框 注 所 示 的 子 字符 串 查找 算 ABC 
法 : 当 1 和 j 所 指向 的 字符 匹配 失败 时 
( 从 文本 的 i-j+1 人 处 开始 检查 模式 的 3 B 4 ABAB 
匹配 情况 ) ， 模 式 可 能 匹配 的 下 一 个 位 和 
种 应 该 从 i-dfa[txt.charAt(i)][j] ABAC 
处 开始 。 按 照 算法 ， 从 该 位 置 开始 的 a 
dfa[txt.charAt(i)][j] 个 字符 和 模 4 A 5 ABABA 
式 的 前 dfa[txt.charAt(i)] [j] 个 字 6 ABABB 
符 应 该 相同 ， 因 此 无 需 回 退 指针 1， 只 。 匹配 (继续 检查 下 个 ABABC 


需要 将 j 设 为 dfa[txt.charAt(i)][j] 


字符 ) ， 将 dfa[pat. 


匹配 失败 时 


charAt(j)[j] 设 为 j+1 
并 将 1 加 1 即 可 ,这 正 是 当 i1 和 j 所 5 € 6 ”ABABAC 的 已 知 文本 
Wi ABABAA” 字符 

指向 的 字符 匹配 时 的 行为 。 1 A , 
5.3.3.3 ”DFA 模拟 是 ABABAB 

et a 匹配 失败 4 ABAB 

说 明 这 个 过 程 的 一 种 较 好 的 方法 (模式 指针 回 退 ) 
是 使 用 确定 有 限 状 态 自动 机 (DFA ) 。 回 退 的 距离 是 已 知 文本 字 

符 和 模式 的 最 大 重合 长 度 


事实 上 ， 由 它 的 名 字 你 也 可 以 看 出 ， 

dfa[] [] 数组 定义 的 正 是 一 个 确定 有 限 
状态 自动 机 。 图 5.3.6 显示 确定 有 限 状 
态 自动 机 是 由 状态 (数字 标记 的 圆圈 ) 

和 转换 ( 带 标签 的 箭头 ) 组 成 的 。 模 式 
中 的 每 个 字符 都 对 应 着 一 个 状态 ， 每 个 
此 类 状态 能 够 转换 为 字母 表 中 的 任意 字 
符 。 对 于 子 字符 串 查找 问题 ， 在 我 们 所 

考虑 的 DFA 中 ， 这 些 转 换 中 只 有 一 条 j = dfa[txt.charAt(i)][j]; 

是 匹配 转换 ( 从 j 到 j+1， 标 签 为 pat. == M) return 1 - M; // 找到 匹配 


图 5.3.5 KMP 子 字 符 串 查找 算法 在 处 理 AB A B A 
C 时 模式 指针 的 回 退 


public int search(String txt) 
{ // 模拟 DFA 处 理 文本 txt 时 的 操作 
int i N = txt.TiengthO,; 
for (1 =:0, 13.= 0 1 <N Bj < My it+) 


return N; // 未 找到 匹配 
charAt(j) ), 其 他 的 都 是 非 匹 配 转换 ( 指 } 
向 左 侧 ) 。 所 有 状态 都 和 字符 的 比较 相 sph 
KMP 子 字符 串 查找 算法 (DFA 模 拟 ) 


对 应 ， 每 个 状态 都 表示 一 个 模式 字符 串 
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字 符 串 
内 部 表示 
j 0 了 2 汉 4 5 
pat.charAt(j) A B A B A C 
于 三 $ 1 5 "i 
dfal][j]lB 0 2 0/4 0 4 
eo 0 Qf0 0 6 
非 匹 配 转换 
( 回 退 ) 匹配 转换 
图 像 表 示 -0 (加 1) 
B,C i A A ' 
B 
A BA B— (OFA— Cs 
we 
停止 状态 


图 5.3.6 ”和 模式 字符 串 A B A B A C 对 应 的 确定 有 限 状 态 自 
动机 


的 索引 值 。 当 我 们 在 标记 为 j 的 状 
态 中 检查 文本 中 的 第 i 个 字符 时 ， 
自动 机 的 行为 是 这 样 的 : “ 沿 着 转 
换 dfa[txt.charAt(i)][j] 前 进 并 
继续 检查 下 一 个 字符 (将 1 加 1)。” 
对 于 一 个 匹配 的 转换 ， 就 向 右 移 动 
一 位 ， 因 为 dfa[txt.charAt(C1i)] 
[j] 的 值 总 是 j+1; 对 于 一 个 非 匹 配 
转换 ， 就 在 向 左 移动 。 自 动机 每 次 
从 左 向 右 从 文本 中 读 取 一 个 字符 并 
移动 到 一 个 新 的 状态 。 我 们 还 包含 
了 一 个 不 会 进行 任何 转换 的 停止 状 
态 M。 自 动机 从 状态 0 开始 : 如 果 
自动 机 到 达 了 状态 M， 那 么 就 在 文 
本 中 找到 了 和 模式 相 匹配 的 一 段子 
字符 串 (我 们 称 这 种 情况 为 确定 有 


限 状 态 自 动机 识别 了 该 模式 ) ; 如 果 自 动机 在 文本 结束 时 都 未 能 到 达 状 态 M， 那 么 就 可 以 知道 文本 中 
不 存在 匹配 该 模式 的 子 字符 串 。 每 个 模式 字符 串 都 对 应 着 一 个 自动 机 ( 由 保存 了 所 有 转换 的 dfa[1[] 
数组 表示 ) 。KMP 的 字符 串 查 找 方法 search() 只 是 一 段 模拟 自动 机 运行 的 Java 程序 。 


人 于 

读 取 这 些 字符 一 B 人 

当前 状态 一 0 ,0 
转换 到 该 状态 一 人 


字符 匹配 : 将 j 设 为 


dfa[txt.charAt(Ci)][j] 


=dfa[pat.charAt(j)][j] B 
A 
字符 不 匹配 :将 j 设 为 


=j+1 


9 40 :JE 下 
A B A B 
小 :于 有 /人 


有 3 
B A A BAC 
0 外 二 让 澡 


© > 


A 
B 


dfa[txt.charAt(i)][j] 
意味 着 将 模式 左 移 并 将 


pat.charAt(j) 和 txt.charAt(i+1) 


对 齐 


A B A B 


13 14 15 16 -一 1i 
A C A AQ<—txt.charAt(i) 
4 5 6 


9 


字符 串 匹 配 ， 
返回 | ~- M = 9 


A 
E 
A CC 


图 5.3.7 KMP 子 字 符 串 查找 算法 处 理 A B A B A C 时 的 轨迹 (DFA 模拟 ) 


要 体验 在 DFA 中 的 子 字符 串 查找 操作 ， 你 可 以 先 想象 一 下 它 所 完成 的 两 件 最 简单 的 任务 。 在 
查找 过 程 的 开始 ， 从 文本 的 开头 进行 查找 ， 起 始 状态 为 0。 它 停留 在 0 状态 并 扫描 文本 ， 直 到 找到 
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一 个 和 模式 的 首 字母 相同 的 字符 。 这 时 它 移动 到 下 一 个 状态 并 开始 运行 。 在 这 个 过 程 的 最 后 ， 当 它 
找到 一 个 匹配 时 ， 它 会 不 断 地 匹配 模式 中 的 字符 与 文本 ， 自 动机 的 状态 会 不 断 前 进 直到 状态 M。 图 
5.3.7 所 示 的 轨迹 给 出 了 DFA 运行 的 一 个 典型 例子 。 每 次 匹配 都 会 将 DFA 带 向 下 一 个 状态 〈 等 价 于 
增 大 模式 字符 串 的 指针 j ) ; 每 次 匹配 失败 都 会 使 DFA 回 到 较 早 前 的 状态 ( 等 价 于 将 模式 字符 串 的 
指针 j 变 为 一 个 较 小 的 值 ) 。 正 文 指针 i 是 从 左 向 右前 进 的 ,一 次 一 个 字符 ,但 索引 j 会 在 DFA 
的 指导 下 在 模式 字符 串 中 左右 移动 。 

5.3.3.4 ”构造 DFA 

现在 你 应 该 已 经 明白 了 DFA 的 原理 ， 接 下 来 解决 KMP 算法 的 关键 问题 : 如 何 计算 给 定 模式 相 
对 应 的 dfa[] [] 数组 ?意外 的 是 ， 这 个 问题 的 答案 仍然 是 DFA 本身! Knuth、Morris 和 Pratt 发明 
了 这 种 巧妙 (但 也 相当 复杂 ) 的 构造 方式 。 当 在 pat.charAt(j) 处 匹配 失败 时 ， 和 希望 了 解 的 是 ， 
如 果 回 退 了 文本 指针 并 在 右 移 一 位 之 后 重新 扫描 已 知 的 文本 字符 ，DFA 的 状态 会 是 什么 ? 我 们 其 实 
并 不 想 回 退 ， 只 是 想 将 DFA 重 置 到 适当 的 状态 ， 就 好 像 已 经 回 退 过 文本 指针 一 样 。 

这 里 的 关键 在 于 需要 重新 扫描 的 文本 字符 正 是 pat. 1 
charAt(1) 到 pat.charAt(j-1) 之 间 ， 忽 略 了 首 字母 是 因为 
模式 需要 右 移 一 位 ， 忽 略 了 最 后 一 个 字符 是 因为 匹配 失败 。 这 。 2 
些 模式 中 的 字符 都 是 已 知 的 ， 因 此 对 于 每 个 可 能 匹配 失败 的 位 
置 都 可 以 预先 找到 重启 DFA 的 正确 状态 。 图 5.3.8 显示 了 示例 3 
中 的 各 种 可 能 性 。 请 务必 理解 这 个 概念 。 

DFA 应 该 如 何 处 理 下 一 个 字符 ?和 回 退 时 的 处 理 方式 相 。 ““ 
同 ， 除 非 在 pat.charAt(j) 处 匹配 成 功 ， 这 时 DFA 应 该 前 
进 到 状态 j+1。 例 如 ， 对 于 ABAB AC， 要 判断 在 j=5 时 匹 
配 失败 后 DFA 应 该 怎么 做 。 通 过 DFA 可 以 知道 完全 回 退 之 后 - 
算法 会 扫描 B A B A 并 达到 状态 3， 因 此 可 以 将 dfa[] [3] 复 。 四 让 作 人 人 
制 到 dfa[][5] 并 将 C 所 对 应 的 元 素 的 值 设 为 6， 因 为 pat. 
charAt(5) 是 C (匹配 )。 因 为 在 计算 DFA 的 第 j 个 状态 时 只 需要 知道 DFA 是 如 何 处 理 前 j-1 个 
字符 的 ， 所 以 总 能 从 尚 不 完整 的 DFA 中 得 到 所 需 的 信息 。 

计算 中 最 后 一 个 关键 细节 是 ， 你 可 以 观察 到 在 处 理 dfa[] [] 的 第 j 列 时 维护 重启 位 置 X 很 容易 。 
因为 X<j， 所 以 可 以 由 已 经 构造 的 DFA 部 分 来 完成 这 个 任务 一 一 X 的 下 一 个 值 是 dfa[pat.charAt(j)] 
[X]。 继 续 上 一 段 中 的 例子 ， 将 X 的 值 更 新 为 dfa['C'] [3]=0 (但 我 们 不 会 使 用 这 个 值 ， 因 为 DFA 的 
构造 已 经 完成 了 ) 。 

由 以 上 的 讨论 可 以 得 到 右 侧 框 注 这 段 短小 精 悍 的 
代码 来 构造 给 定 模式 的 DFA。 对 于 每 个 j， 它 将 会 : dfa[pat,charAtK07]LO] = .13 


For Cine XX = .07 jl F <: Me JP 
口 将 dfa[][X] 复制 到 dfa[] [j] (对 于 匹配 失败 { // 计算 dfa[][j] 


中 号 








四 口 | 四 口 | 四 口 


© 


0 


的 情况 ) ; for (int c = 0; c < R; c++) 
: a dfa[c] [ji] = dfa[c][X]; 
口 将 dfa[pat.charAt(j)][j] 设 为 jt+1( 对 于 dfatpae: Charateyy] rs] = 4 
匹配 成 功 的 情况 ) ; X = dfa[pat.charAt(j)][X] ; 
口 更 新 X。 } 


图 5.3.9 显示 了 这 段 代码 处 理 样 例 输 入 的 轨迹 。 为 


KMP 子 字符 串 查找 算法 中 DFA 的 构造 
了 确保 你 能 完全 理解 它 , 请 完成 练习 5.3.2 和 练习 5.3.3。 人 
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图 5.3.9 KMP 子 字符 串 查 找 算法 中 模式 A BA BAC 的 DFA 的 构造 


一 
CN 
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算法 5.6 ”Knuth-Morris-Pratt 字符 串 查找 算法 


public class KMP 

{ 
private String pat; 
private int[][] dfa; 
public KMP(String pat) 
{ // 由 模式 字符 串 构造 DFA 


= j+l1; 
X = dfa[pat.charAt(j)][X]; 


本 


5.3 子 字符 串 查 找 十 501 


this.pat = pat; 

int M = pat.length() ; 

int R = 256; 

dfa = new int[R][M] ; 
dfa[pat.charAt(0)][0] = 

for (int X= 0, j = 1; j < M; j++) 
{ // 计算 dfa[][j] 


for (int c= 0; c < Ri c++) 


dfa[c][j] = dfa[c] [X] ; // 复制 匹配 失败 情况 下 的 值 
dfa[pat.charAt(j)][j] = j+1; // 设置 匹配 成 功 情况 下 的 值 
X = dfa[pat.charAt(j)][X]; // 更 新 重启 状态 


} 
} 
public int search(String txt) 
{ // 在 txt 上 模拟 DFA 的 运行 
int i, j, N = txt.length(), M = pat.length(); 
for (i= 0, j= 0; 1<N 8 j < M; i++) 
= dfa[txt.charAt(i)][j]; 
if (j == M) return i - M; // 找到 匹配 (到 达 模 式 字 符 串 的 结尾 ) 
else return Ni; // 未 找到 匹配 ( 到 达 文 本 字符 串 的 结尾 ) 
} 
public static void main(String[] args) 
// 请 见 表 5.3.1 


该 Knuth-Morris-Pratt 子 字符 串 查 找 


算法 的 实现 的 构造 病 数 根据 模式 字符 串 ot er ett pon 


构造 了 一 个 确定 有 限 状态 自动 机 ， 使 用 pattern: AACAA 
search() 方法 在 给 定 文本 字符 串 中 查找 
模式 字符 串 。 它 和 暴力 子 字 符 串 查找 算法 的 功能 相同 ， 但 带 适 合 查找 自我 重复 性 的 模式 字符 串 。 


算法 5.6 实现 了 表 5.3.1 所 示 的 API。 768 
表 5.3.1 子 字符 串 查找 的 API 


public class KMP 
KMP(String pat) 根据 模式 字符 串 pat 创建 一 个 DFA 
int search(String txt) 在 txt 中 找到 pat 的 出 现 位 置 


你 可 以 在 下 页 框 注 中 看 到 KMP 的 一 个 典型 的 测试 用 例 。KMP 的 构造 函数 会 根据 模式 字符 串 创 
建 一 个 DFA 并 用 search () 方法 中 在 给 定 的 文本 中 查找 该 模式 字符 串 。 


命题 N。 对 于 长 度 为 a NW 的 文本 ， Knuth-Morris-Pratt 字符 和 
间 的 字符 不 会 超过 MtN 个 。 


证 明 。 由 代码 可 以 马上 得 到 ， 在 计算 dfa[][] 时 ， 算法 会 访问 模式 字符 中 中 的 每 个 字符 次 ， 
在 search() 方法 中 会 访问 文本 中 的 每 个 字符 ( 最 坏 情况 下 ) 一 次 。 
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我 们 还 需要 引入 另 一 个 参数 ， 即 字母 表 的 大 小 R， 所 以 构造 DFA 所 需 的 总 时 间 〈 和 空间 ) 将 与 
MR 成 正比 。 如 果 在 构造 DFA 时 为 每 个 状态 设置 一 个 匹配 转换 和 一 个 非 匹 配 转换 〈 而 非 指向 每 个 可 
能 出 现 的 字符 的 多 个 转换 ) ， 那 么 也 可 以 去 掉 参 数 R， 但 构造 过 程 会 更 加 复杂 一 些 。 

KMP 算法 为 最 坏 情况 提供 的 线性 级 别 
运行 时 间 保 证 是 一 个 重要 的 理论 成 果 。 在 


public static void main(String[] args) 


{ 实际 应 用 中 ， 它 比 暴力 算法 的 速度 优势 并 
Sm Ng a 不 十 分 明显 ， 因 为 极 少 有 应 用 程序 需要 在 
String txt = args[1]; 

KMP kmp = new KMP (pat); 重复 性 很 高 的 文本 中 查找 重复 性 很 高 的 模 

StdOut,.printin("text: ee ih 坝 让、 式 。 但 该 方法 的 一 个 优点 是 不 需要 在 输入 

int offset = kmp.search(txt); 病 有 

StdOut.print("pattern: "); 中 回 退 。 这 使 得 KMP 子 字符 串 查 找 算法 更 

A 适合 在 长 度 不 确定 的 输入 流 ( 例如 标准 输 
StdOut.print(" "); 

Stdout .printlnCpat) ; 入 ) 中 进行 查找 ,需要 回 退 的 算法 在 这 种 

} 情况 下 则 需要 复杂 的 缓冲 机 制 。 但 其 实 当 

回 退 很 容易 时 ， 还 可 以 比 KMP 快 得 多 。 下 
KMP 子 字符 串 查 找 算法 的 测试 用 例 面 ， 我 们 来 学 习 一 种 利用 回 退 来 获取 巨大 
性 能 收益 的 算法 。 


5.3.4 ”Boyer-Moore 字符 串 查找 算法 


当 可 以 在 文本 字符 串 中 回 退 时 ， 如 果 可 以 从 右 向 左 扫 描 模 式 字符 串 并 将 它 和 文本 匹配 ， 那 么 就 
能 得 到 一 种 非常 快 的 字符 串 查 找 算 法 。 例 如 ， 在 查找 子 字符 串 B A A B B A A 时， 如 果 匹 配 了 第 
七 个 和 第 六 个 字符 ， 但 在 第 5 个 字符 处 匹配 失败 ， 那 马上 就 可 以 将 模式 向 右 移动 7 个 位 置 并 继续 检 
查 文本 中 的 第 14 个 字符 。 这 是 因为 部 分 匹配 找到 了 X A A 而 X 不 是 B， 而 这 3 个 连续 的 字符 在 模 
式 中 是 唯一 的 。 一 般 来 说 ， 模 式 的 结尾 部 分 也 可 能 出 现在 文本 的 其 他 位 置 ， 因 此 和 Knuth-Morris- 
Pratt 算法 一 样 ， 也 需要 一 个 记录 重启 位 置 的 数组 。 本 节 不 会 再 次 详细 介绍 它 的 构造 方法 ， 因 为 它 和 
Knuth-Morris-Pratt 算法 中 的 实现 很 相似 。 这 里 将 讨论 Boyer 和 Moore 给 出 的 另 一 种 从 右 向 左 扫描 模 
式 字符 串 的 更 有 效 的 方法 。 

和 KMP 子 字符 串 查 找 算法 的 实现 一 样 ， 我 们 会 根据 匹配 失败 时 文本 和 模式 中 的 字符 来 决定 下 
一 步 的 行动 。 而 预 处 理 步 又 的 目的 在 于 判断 对 于 文本 中 可 能 出 现 的 每 一 个 字符 ， 在 匹配 失败 时 算法 
应 该 怎么 办 。 将 这 个 想法 变 为 现实 就 可 以 得 到 一 种 高 效 实用 的 子 字 符 串 查 找 算法 。 
5.3.4.1 启发 式 的 处 理 不 匹配 的 字符 

请 看 图 5.3.10， 它 显示 了 在 文本 F I NDINAHAYSTACKNEEDLE 中 查找 模 
式 N E E D LE 的 过 程 。 因 为 是 从 右 向 左 与 模式 进行 匹配 ， 所 以 首先 会 比较 模式 字符 串 中 的 E 和 
文本 中 的 N ( 位置 为 5 的 字符 ) 。 因 为 N 也 出 现在 了 模式 字符 串 中 ， 所 以 将 模式 字符 串 向 右 移动 5 
个 位 置 ， 将 文本 中 的 字符 N 和 模式 字符 串 中 ( 最 左 侧 ) 的 N 对 齐 。 然 后 比较 模式 字符 串 最 右 侧 的 E 
和 文本 中 的 S (位置 在 第 10 个 字符 ) ， 匹 配 失败 。 但 因为 S 不 包含 在 模式 字符 串 中 ， 所 以 可 以 将 
模式 字符 串 向 右 移 动 6 个 位 置 。 此 时 模式 字符 串 最 右 侧 的 E 和 文本 中 位 置 为 16 的 E 相 匹配 ， 但 我 
们 发 现 文本 的 下 一 个 (位置 为 15 的 ) 字符 为 N, 匹配 再 次 失败 。 于 是 和 第 一 次 一 样 ， 将 模式 字符 串 
再 次 向 右 移动 5 个 位 置 。 最 后 ， 从 位 置 20 处 开始 从 右 向 左 扫描 ， 发 现 文本 中 含有 与 模式 匹配 的 子 
字符 串 。 这 种 方法 找到 匹配 位 置 仅 用 了 4 次 字符 比较 (以 及 6 次 比较 来 验证 匹配 ) ! 
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| ] Wo LE 2 TL 2 T3415 L617 18 9 20 21 222.23 
文本 一 F I ND INA HAY S TA CKkNE EDL E 
0 5 E 下 一 模式 字符 串 
5 5 E 
1 4 L EE 
15 0 | | 0 0 | = 
XW 
返回 1=15 
图 5.3.10 ”从 右 向 左 的 (Boyer-Moore) 子 字符 串 查找 中 的 启发 式 地 处 理 不 匹配 的 字符 770 
5.3.42 起 点 
要 实现 启发 式 的 处 理 不 匹配 的 字符 ， 我 们 时 
使 用 数组 right[] 记录 字母 表 中 的 每 个 字符 在 0 1 2 3 4 5 rightrc] 
模式 中 出 现 的 最 靠 右 的 地 方 ( 如 果 字符 在 模式 。 
中 不 存在 则 表示 为 -1 ) 。 这 个 值 揭示 了 如 果 该 cC -1 _1 
字符 出 现在 文本 中 且 在 查找 时 造成 了 一 次 匹配 D -1 3 3 
失败 ， 应 该 向 右 跳 路 多 远 。 要 将 right[] 数 组 E -1 人 5 
初始 化 ， 首 先 将 所 有 元 素 的 值 设 为 -1， 然 后 对 i)” .1 
于 0 到 M-1 的 j， 将 right[pat.charAt(j)] M -1 a 
设 为 j]， 如 图 5.3.11 对 模式 N E E D L E 的 处 N 让 ，' 放 0 
理 所 示 。 i -1 
5.3.4.3 ” 子 字符 串 的 查找 图 5.3.11 Boyer-Moore 算法 中 的 跳跃 表 的 计算 
在 计算 完 right[] 数组 之 后 ， 算 法 5.7 的 
实现 就 很 简单 了 。 我 们 用 一 个 索引 i 在 文本 中 | | 
从 左 向 右 移动 ， 用 另 一 个 索引 j 在 模式 中 从 右 过 
向 左 移动 。 内 循环 会 检查 正文 和 模式 字符 串 在 RE 
位 置 1 是 否 一 致 。 如 果 从 M-1 到 0 的 所 有 了 j， 和 人 似 于 KMP 算 法 的 
txt.charAt(i+j) 都 和 pat.charAt(j) 相等 ， 4 ,一 表格 将 i 变 得 更 大 
那么 就 找到 了 一 个 匹配 。 否 则 匹配 失败 ， 就 会 
遇 到 以 下 三 种 情况 。 将 j 重 置 为 M-1 1 
了 


口 如 果 造 成 匹配 失败 的 字符 不 包含 在 模式 Ne 
字符 串 中 ， 将 模式 字符 串 向 右 移动 j+1 人 
个 位 置 (即将 1 增加 j+1) 。 小 于 这 个 OD 
偏 移 量 只 可 能 使 该 字符 与 模式 中 的 某 个 字符 重生 。 事 实 上 ， 这 次 移动 也 会 将 模式 字符 串 前 面 
一 部 分 已 知 的 字符 和 模式 结尾 的 一 部 分 已 知 字符 对 齐 。 通 过 预先 计算 一 张 类 似 于 KMP 算法 
的 表格 ,还 可 以 将 i 值 变 得 更 大 ( 请 见 图 5.3.12 ) 。 

口 如 果 造 成 匹配 失败 的 字符 包含 在 模式 字符 串 中 ， 那 就 可 以 使 用 right[] 数组 来 将 模式 字符 
串 和 文本 对 齐 ， 使 得 该 字符 和 它 在 模式 字符 串 中 出 现 的 最 右 位 置 相 匹配 。 和 刚才 一 样 ， 小 于 
这 个 偏 移 量 只 可 能 使 该 字符 和 模式 中 的 与 它 无 法 匹配 的 字符 ( 比 它 出 现 的 最 右 位 置 更 靠 右 的 
字符 ) 重 倒 。 我 们 可 以 用 一 张 类 似 于 KMP 算法 的 表格 将 i 变 得 更 大 ， 如 图 5.3.13 所 示 。 771 

口 如 果 这 种 方式 无 法 增 大 i1， 那 就 直接 将 i 加 1 来 保证 模式 字符 串 至 少 向 右 移动 了 一 个 位 置 。 
图 5.3.13 下 方 的 例子 说 明了 这 种 情况 。 


504 Bb 第 5 章 字 符 串 


算法 5.7 简明 地 实现 了 这 个 过 程 。 基本 思想 | Wy 
请 注意 ， 使 用 -1 表示 right[] 数组 中 : 
相应 字符 不 包含 在 模式 字符 串 中 ， 这 个 LL 下 
约定 能 够 将 前 两 种 情况 合并 (将 i 增 大 j 可 区 相 医 - 攻 天 
j-right[txt.charAt(i+j)] ) 。 将 i 增 大 j-right['N'] 来 i 似 于 KMP 算 法 的 
完整 的 Boyer-Moore 算法 预计 算 了 ” 将 文本 和 模式 中 的 N 对 齐 1 表格 将 1 变 得 更 大 


模式 字符 串 与 自身 的 不 匹配 情况 ( 和 
KMP 算法 的 方式 类 似 ? ) 并 为 最 坏 情况 将 j 重 置 为 M-1 . 
提供 了 线性 级 别 的 运行 时 间 保证 〈 而 算 


法 5.7 在 最 坏 情况 下 的 运行 时 间 与 NM “启发 式 方法 没有 起 作用 的 情况 1 
成 正比 一 一 请 见 练习 5.3.19 ) 。 我 们 在 | 第 
这 里 省 略 了 算法 的 计算 ， 因为 在 一 般 的 D L E 
应 用 程序 中 对 不 匹配 字符 的 启发 式 处 理 
对 齐 则 会 将 模式 字符 串 向 左 移动 
可 以 根据 一 张 类 
i 似 于 KMP 算 法 的 
因此 只 能 将 i 加 1 】} ,表格 将 i 变 得 更 大 
命题 O。 在 一 般 情 况 下 ， 对 于 长 度 
为 W 的 文本 和 长 度 为 M 的 模式 字 1 
符 串 ， 使 用 了 Boyer-Moore 的 子 字 将 j 重 置 为 M-1 j 
符 串 查找 算法 通过 启发 式 处 理 不 匹 
配 的 字符 需要 ~N/M 次 字符 比较 。 图 5.3.13 ”启发 式 的 处 理 不 匹配 的 字符 (不 匹配 的 字符 包含 


在 模式 字符 串 中 ) 


讨论 。 我 们 可 以 用 各 种 随机 字符 串 模 型 证 明 该 结论 ， 但 这 些 模型 一 般 都 不 太 可 能 在 实际 情况 中 
出 现 ， 因 此 这 里 省 略 了 证 明 的 细节 。 在 许多 实际 应 用 场景 中 ， 模 式 字符 串 中 仅 含有 字母 表 中 的 
若干 字符 是 很 常见 的 ,因此 几乎 所 有 的 比较 都 会 使 算法 跳 过 M 个 字符 ,这 样 就 得 到 了 以 上 结论 。 


算法 5.7 Boyer-Moore 字符 串 匹 配 算法 〈 启 发 式 地 处 理 不 匹配 的 字符 ) 


public class BoyerMoore 
{ 
private int[] right; 
private String pat; 
BoyerMoore(String pat) 
{ // 计算 跳跃 表 
this.pat = pat; 
int M = pat.length() ; 
int R 二 256; 
right = new int[R]; 


Q@ 即 跳 跃 表 。 一 一 译 者 注 
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for (int C = 0; Cc < R; c++) 


right[c] = -1; // 不 包含 在 模式 字符 囊 中 的 字符 的 值 为 -1 
for Cint j = 0; j < M; j++) // 包含 在 模式 字符 串 中 的 字符 的 值 为 
right[pat.charAt(j)] = j; // 它 在 其 中 出 现 的 最 右 位 置 


} 


public int search(String txt) 
{ // 在 txt 中 查找 模式 字符 串 
int N = txt.length(); 
int M = pat.1length() ; 
int skip; 
for (int 1 = 0; i <= N-M; i1 += skip) 
{ // 模式 字符 串 和 文本 在 位 置 1 匹配 吗 ? 
skip = 0; 
for (int j = M-1; j >= 0; j--) 
if (pat.charAt(j) != txt.charAt(i+j)) 
{ 
skip = j - right[txt.charAt(Ci+j)]; 
if (skip < 1) skip = 1; 
break; 
} 
if (skip == 0) return ii; // 找到 匹配 
} ly 
return N; // 未 找到 匹配 
} 


public static void main(String[] args) /// 请 见 表 5.3.1 
} 
这 段子 字符 串 查 找 算法 的 实现 的 构造 函数 根据 模式 字符 串 构 造 了 一 张 每 个 字符 在 模式 中 出 现 的 最 右 
位 置 的 表格 。 查 找 算法 会 从 右 向 左 扫描 模式 字符 串 ， 并 在 匹配 失败 时 通过 跳跃 将 文本 中 的 字符 和 它 在 模 [772 
式 字符 串 中 出 现 的 最 右 位 置 对 齐 。 ER 


5.3.5 ”Rabin-Karp 指纹 字符 串 查找 算法 

M.O.Rabin 和 R.A.Karp 发 明了 一 种 完全 不 同 的 基于 散 列 的 字符 串 查找 算法 。 我 们 需要 计算 模式 
字符 串 的 散 列 函数 ， 然 后 用 相同 的 散 列 函数 计算 文本 中 所 有 可 能 的 M 个 字符 的 子 字符 串 散 列 值 并 
寻找 匹配 。 如 果 找 到 了 一 个 散 列 值 和 模式 字符 串 相同 的 子 字符 串 ， 那 么 再 继续 验证 两 者 是 和 否 匹 配 。 
这 个 过 程 等 价 于 将 模式 保存 在 一 张 散 列表 中 ， 然 后 在 文本 的 所 有 子 字符 串 中 进行 查找 。 但 不 需要 为 
散 列 表 预 留任 何 空间 ， 因 为 它 只 会 含有 一 个 元 素 。 根 据 这 段 描述 直接 实现 的 算法 将 会 比 暴力 子 字符 
串 查找 算法 慢 很 多 〈 因为 计算 散 列 值 将 会 涉及 字符 串 中 的 每 个 字符 ， 成 本 比 直接 比较 这 些 字符 要 高 
得 多 ) 。Rabin 和 Karp 发 明了 一 种 能 够 在 常数 时 间 内 算出 M 个 字符 的 子 字符 串 散 列 值 的 方法 〈 需 
要 预 处 理 ) ， 这 样 就 得 到 了 在 实际 应 用 中 的 运行 时 间 为 线性 级 别 的 字符 串 查 找 算 法 。 
5.3.5.1 基本 思想 

长 度 为 M 的 字符 串 对 应 着 一 个 R 进 制 的 M 位 数 。 为 了 用 一 张大 小 为 Q 的 散 列 表 来 保存 这 种 类 型 
的 键 ， 需 要 一 个 能 够 将 R 进 制 的 M 位 数 转化 为 一 个 0 到 Q-1 之 间 的 int 值 散 列 函 数 。 除 留 余 数 法 (请 
见 3.4 节 ) 是 一 个 很 好 的 选择 : 将 该 数 除 以 Q 并 取 余 。 检 实际 应 用 中 会 使 用 一 个 随机 的 素数 Q， 在 不 
溢出 的 情况 下 选择 一 个 尽 可 能 大 的 值 。 ( 因为 我 们 并 不 会 真 的 需要 一 张 散 列表 。 ) 理解 这 个 方法 最 
简单 的 办 法 就 是 取 一 个 较 小 的 Q 和 R=10 的 情况 ， 如 下 所 示 。 要 在 文本 3 1 4 159265358 
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9 7 9 3 中 找到 模式 2 6 5 3 5， 首 先 要 选择 散 列 表 的 大 小 Q (在 这 个 例子 中 是 997 ) ， 则 散 列 值 为 
26535 % 997 = 613， 然 后 计算 文本 中 所 有 长 度 为 5 个 数字 的 子 字符 串 的 散 列 值 并 寻找 匹配 。 在 这 个 
例子 中 , 在 找到 613 的 匹配 之 前 , 得 到 的 散 列 值 分 别 为 508、201、715、971、442 和 929, 请 见 图 5.3.14。 


pat.charAt(]j) 
j 10 泗 - 壹 


26 97 


5 
9 


LU 
FF | 


9 


人 上 上 和 上 上 | 
FF FF Fw 
mm mmm wm wm 和 


‘OO WW WW ww 


一 返回 i=6 


txt .charAt(i) 


6 
2 


7 8 9 10 T1112 13. 14 15 
6 3 7 3 


% 997 = 508 


% 997 = 201 


2 


NN NN 


% 997 = 715 

6 % 997 = 971 

6 5 % 997 = 442 

6 5 3 % 997 = 929 
6 5 3 5 %997 = 613 


匹配 
~ 


图 5.3.14 ”Rabin-Karp 字符 串 查 找 算法 的 基本 思想 


5.3.5.2 ”计算 散 列 函数 

对 于 5 位 的 数值 ， 只 需 使 用 int 值 即 可 
完成 所 有 所 需 的 计算 。 但 如 果 M 是 100 或 者 
1000 怎么 办 ?这 里 使 用 的 是 Horner 方法， 
它 和 3.4 节 中 见 过 的 用 于 字符 串 和 其 他 多 值 
类 型 的 键 的 计算 方法 非常 相似 ,代码 如 下 面 
框 注 所 示 。 这 段 代码 计算 了 用 char 值 数 组 表 
示 的 R 进 制 的 M 位 数 的 散 列 函数 ， 所 需 时 间 
与 M 成 正比 。( 将 M 作 为 参数 传递 给 该 方法 ， 


private long hash(String key, int M) 
{ // 计算 key[0..M-1] 的 散 列 值 
long h = 0; 
for (int J =0;° 3 < Mj++) 
h = (CR * h + key.charAt(j)) % Q; 
return h; ， 


} 


Horner 方 法 , 用 于 除 留 余数 法 计算 散 列 值 


这 样 就 可 以 将 它 同时 用 于 模式 字符 串 和 正文 。) 对 于 这 个 数 中 的 每 一 位 数字 ， 将 散 列 值 乘 以 R， 加 
上 这 个 数字 ， 除 以 Q 并 取 其 余数 。 例 如 ， 这 样 计算 示例 模式 字符 串 散 列 值 的 过 程 如 图 5.3.15 所 示 。 
我 们 也 可 以 用 同样 的 方法 计算 文本 中 的 子 字符 串 散 列 值 ， 但 这 样 一 来 字符 串 查找 算法 的 成 本 就 将 是 
对 文本 中 的 每 个 字符 进行 乘法 、 加 法 和 取 余 计算 的 成 本 之 和 。 在 最 坏 情 况 下 这 需要 NM 次 操作 ， 相 


对 于 暴力 子 字 符 串 查找 算法 来 说 并 没有 任何 改进 。 


pat.charAt(]j) 





i 0 下- 芝 写 到 
二 有 如 

0 2 %997 = 2 

1 这 

和 。 号 把 

3 马 省 

4 2 © 


R Q 
4 人 


% 997,= (2*10 + 6) % 997 = 26 

5 % 997 = (26*10 + 5) % 997 = 265 

5 3 % 997 = (265*10 + 3) % 997 = 659 

5 3 5 % 997 = (659*10 + 5) % 997 = 613 


图 5.3.15 ”使 用 Horner 方 法 计算 模式 字符 串 的 散 列 值 
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5.3.5.3 ”关键 思想 
Rabin-Karp 算法 的 基础 是 对 于 所 有 位 置 1， 高 效 计 算 文本 中 i+1 位 置 的 子 字符 串 散 列 值 。 这 可 
以 由 一 个 简单 的 数学 公式 得 到 。 我 们 用 表示 txt.charAt(i) ， 那 么 文本 txt 中 起 始 于 位 置 i 的 
含有 M 个 字符 的 子 字 符 串 所 对 应 的 数 即 为 : 
1 + Rt tt mR 
假设 已 知 h(xi)=x; mod 0。 将 模式 字符 串 右 移 一 位 即 等 价 于 将 x; 替换 为 : 
XI=(CrER Rttty 


即将 它 减 去 第 一 个 数字 的 值 ， 乘 以 R， 再 加 上 最 后 一 个 数字 的 值 。 现 在 ， 关 键 的 一 点 在 于 
不 需要 保存 这 些 数 的 值 ， 而 只 需要 保存 它们 除 以 2 之 后 的 余数 。 取 余 操 作 的 一 个 基本 性 质 是 如 
果 在 每 次 算术 操作 之 后 都 将 结果 除 以 2 并 取 余 ， 这 等 价 于 在 完成 了 所 有 算术 操作 之 后 再 将 最 后 
的 结果 除 以 2 并 取 余 。 曾 经 在 用 Horner 方法 (请 见 3.1.1.4 节 ) 实现 除 留 余 数 法 时 利用 过 这 个 


性 质 。 这 么 做 的 结果 就 是 无 论 M 是 5、100 还 是 1000， 都 可 以 在 常数 时 间 内 高 效 地 不 断 向 右 一 
格 一 格 地 移动 。 
5.3.5.4 ”实现 

根据 以 上 讨论 可 以 立即 得 到 算法 5.8 中 对 该 1 ... 234567... 
子 字符 串 查 找 算法 的 实现 。 构 造 函 数 为 模式 字 ”当前 值 和 工 辕 泡 交 3 本 
符 串 计算 了 散 列 值 patHash 并 在 变量 RM 中 保 新 值 1 
存 了 RY modO 的 值 。hashsearch() 方法 开 er 
头 计算 了 文本 的 前 M 个 字母 的 散 列 值 并 将 它 和 0 人 
模式 字符 串 的 散 列 值 进 行 比较 。 如 果 未 能 匹配 ， 1 名 省 增 减 去 第 一 个 数字 的 什 
它 将 会 在 文本 中 继续 前 进 ， 用 以 上 讨论 的 方法 i b ee 
计算 由 位 置 1 开始 的 MM 个 字符 的 散 列 值 ， 将 它 。 6 天 上 新 的 未 尾数 学 
保存 在 txtHash 变量 中 并 将 每 个 新 的 散 列 值 和 1 5 9 2 6 新 什 
patHash 进行 比较 ,请 见 图 5.3.16 和 图 5.3.17。 图 5.3.16 Rabin-Karp 字符 申 查 找 算法 中 的 关键 
(在 txtHash 的 计算 中 ,额外 加 上 了 一 个 Q 来 计算 (在 文本 中 右 移 一 位 ) 


保证 所 有 的 数 均 为 正 ， 这 样 取 余 操作 才能 够 得 
到 预期 的 结果 。 ) 
5.3.5.5 ”小 技巧 ， 用 蒙特 卡 洛 法 验证 正确 性 

在 文本 txt 中 找到 散 列 值 与 模式 字符 串 相 匹配 的 一 个 M 个 字符 的 子 字符 串 之 后 ， 你 可 能 会 逐 
个 比较 它们 的 字符 以 确保 得 到 了 一 个 匹配 而 非 相同 的 散 列 值 。 我 们 不 会 这 么 做 ， 因 为 这 需要 回 退 文 
本 指针 。 作 为 替代 ， 这 里 将 散 列 表 的 “规模 ”0 设 为 任意 大 的 一 个 值 ， 因 为 我 们 并 不 会 真 构造 一 张 
散 列表 而 只 是 希望 用 模式 字符 串 验 证 是 否 会 产生 冲突 。 我 们 会 取 一 个 大 于 10” 的 1ong 型 值 ， 使 得 
一 个 随机 键 的 散 列 值 与 模式 字符 串 冲 突 的 概率 小 于 10“。 这 是 一 个 极 小 的 值 。 如 果 它 还 不 够 小 ， 你 
可 以 将 这 种 方法 运行 两 遍 ， 这 样 失败 的 几率 将 会 小 于 10“”。 这 是 蒙特 卡 洛 算法 一 种 著名 早期 应 用 ， 
它 既 能 够 保证 运行 时 间 ， 失 败 的 概率 又 非常 小 。 检 查 匹 配 的 其 他 方法 可 能 很 慢 (性 能 有 很 小 的 概率 
相当 于 暴力 算法 ) 但 能 够 确保 正确 性 。 这 种 算法 被 称 为 拉 斯 维 加 斯 算法 。 
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-返回 i-M+1=6 


1 2 4 6 8 9 10 11 12 13 14 15 
4 5 2 5 3 5 


3 5 
1 9 6 8 9 7 9 3 

% 997 = 3 A 

% 997 = (3*10 + 1) % 997 = 31 

% 997 = (31*10 + 4) % 997 = 314 

1 % 997 = (314*10 + 1) % 997 = 150 

5 % 997 = (150*10 + 5) % 997 = 508 /RM __R 

9 % 997 = ((508 + 3*(997 - 30)9*10 + 9) % 997 = 201 

2 % 997 = ((201 + 1*(997 - 30))*10 + 2) % 997 = 715 

% 997 = ((715 + 4*(997 - 30))*10 + 6) % 997 = 971 

2 5 % 997 = ((971 + 1*(997 - 30))*10 + 5) % 997 = 442 匹配 
2 6 5 3 %997= ((442 + 5*(997 - 30))*10 + 3) % 997 = 929 | 
2 6 5 3 5 %997= ((929 + 9*(997 - 30))*10 + 5) % 997 = 613 
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图 5.3.17 Rabin-Karp 子 字符 串 查找 算法 举例 


算法 5.8 Rabin-Karp 指纹 字符 串 查 找 算 法 


public class RabinKarp 


4 


private String pat; // 模式 字符 串 ( 仅 拉 斯 维 加 斯 算法 需要 ) 
private long patHash; // 模式 字符 串 的 散 列 值 
private int M; // 模式 字符 串 的 长 度 
private long Q; // 一 个 很 大 的 素数 
private int R = 256; // 字母 表 的 大 小 
private long RM; // RACM-1) % Q 
public RabinKarp(String pat) 
{ 
this.pat = pat: // 保存 模式 字符 囊 ( 仅 拉 斯 维 加 斯 算法 需要 ) 
this.M = pat.length() ; 
Q = longRandomPrime(); // 请 见 练 习 5.3.33 
RM = 1; 
for (Cint i = 1; i <= M-1; i++) // 计算 RAC(M-1) % Q 
RM = CR * RM) % Q; // 用 于 减 去 第 一 个 数字 时 的 计算 
patHash = hash(pat, M); 
} 


public boolean check(int i) // 和 蒙特 卡 洛 算法 (请 见 正文 ) 
{ return true; } // 对 于 拉 斯 维 加 斯 算法 , 检查 模式 与 txt(i.,.i-M+1) 的 匹配 
private long hash(String key, int M) 
// 请 见 正文 
private int search(String txt) 
{ // 在 文本 中 查找 相等 的 散 列 值 
int N = txt.1ength() ; 
long txtHash = hash(txt, M); 
if (patHash == txtHash&&ckeck(0)) return 0; // 一 开始 就 匹配 成 功 
for (Cint 1 = Mi i < Ni i++) 
{ // 减 去 第 一 个 数字 ， 加 上 最 后 一 个 数字 ， 再 次 检查 匹配 
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txtHash = (txtHash + Q - RM*txt.charAt(i-M) % Q) % Q; 
txtHash = (txtHash*R + txt.charAt(i)) % Q; 
if (patHash == txtHash) 


if (check(i - M+ 1)) return i - M+ 1; // 找到 匹配 


} 
return N; // 未 找到 匹配 


上 
} 


该 字符 串 查 找 算法 的 基础 是 散 列 。 它 在 构造 函数 中 计算 了 模式 字符 串 的 散 列 值 并 在 文本 中 查找 该 散 
列 值 的 匹配 。 


命题 P。 使 用 蒙特 卡 洛 算法 的 Rabin-Karp 子 字 符 串 查找 算法 的 运行 时 间 是 线性 级 别 的 且 出 错 的 
概率 极 小 。 使 用 拉 斯 维 加 斯 算法 的 Rabin-Karp 子 字符 串 查找 算法 能 够 保证 正确 性 且 性 能 极其 接 
近 线 性 级 别 。 


讨论 。 因 为 我 们 不 需要 实际 创建 一 张 散 列表 ， 使 用 非常 大 的 Q 几乎 不 可 能 发 生 散 列 值 冲突 。 
Rabin 和 Karp 证 明了 只 要 选择 了 适当 的 Q 值 ， 随 机 字符 串 产 生 散 列 碰撞 的 概率 为 1/Q。 这 意味 
着 对 于 这 些 变量 实际 可 能 出 现 的 值 ， 字 符 串 不 匹配 时 散 列 值 也 不 会 匹配 ， 散 列 值 匹 配 时 字符 串 
才 会 匹配 。 理 论 上 来 说 ， 文 本 中 的 某 个 子 字符 串 可 能 会 在 与 模式 不 匹配 的 情况 下 产生 散 列 冲突 ， 
但 在 实际 应 用 中 使 用 该 算法 寻找 匹配 是 可 靠 的 。 


如 果 你 对 概率 论 ( 或 者 我 们 使 用 的 随机 字符 串 模型 以 及 生成 随机 数字 的 代码 ) 并 不 是 很 有 信心 ， 
那么 可 以 在 checkQ 〇 方法 中 添加 检查 文本 子 字 符 串 和 模式 是 否 匹 配 的 代码 。 这 将 把 算法 5.8 变 成 拉 
斯 维 加 斯 版 本 ( 请 见 练习 5.3.12 ) 。 如 果 你 再 添加 一 个 方法 来 检查 这 段 代 码 是 否 真正 被 执行 过 ， 随 
着 时 间 的 推移 你 就 会 逐渐 相信 概率 论 的 证 明了 。 

Rabin-Karp 字符 串 查找 算法 也 称 为 指纹 字符 串 查找 算法 , 因为 它 只 用 了 极 少量 信息 就 表示 了 ( 可 
能 非常 大 的 ) 模式 字符 串 并 在 文本 中 寻找 它 的 指纹 ( 散 列 值 ) 。 算 法 的 高 效 性 来 自 于 对 指纹 的 高 效 
计算 和 比较 。 


5.3.6 总 结 


表 5.3.2 总 结 了 我 们 已 经 讨论 过 的 各 种 子 字符 串 查 找 算 法 。 尽 管 常常 出 现 多 个 算法 都 能 完成 相 
同 的 任务 的 情况 , 但 它们 都 各 有 特点 : 暴力 查找 算法 的 实现 非常 简单 且 在 一 般 的 情况 下 都 工作 良好 ; 
(Java 的 String 类 型 的 index0f() 方法 使 用 的 就 是 暴力 子 字符 串 查 找 算法 。 ) Knuth-Morris-Pratt 
算法 能 够 保证 线性 级 别 的 性 能 且 不 需要 在 正文 中 回 退 ; BoyerMoore 算法 的 性 能 在 一 般 情况 下 都 是 亚 
线性 级 别 〈 可 能 是 线性 级 别 的 M 倍 ) ; Rabin-Karp 算法 是 线性 级 别 。 每 种 算法 也 各 有 和 缺点: 暴力 查 
找 算法 所 需 的 时 间 可 能 和 MN 成 正比 ; Knuth-Morris-Pratt 算法 和 Boyer-Moore 算法 都 需要 额外 的 内 存 
空间 ; Rabin-Karp 算法 的 内 循环 很 长 〈 若 干 次 算术 运算 ， 而 其 他 算法 都 只 需要 比较 字符 ) 。 这 些 特点 
都 总 结 在 了 表 5.3.2 中 。 
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( 续 ) 
表 5.3.2 各 种 字符 串 查 找 算法 的 实现 的 成 本 总 结 
操作 次 数 
; ee 回 退 ”正确 性 外 的 空间 需 
算 去 版 本 二 二 和 一直 情 疯 在 文本 中 确 额外 的 空间 需求 

暴力 算法 < MN 1.1N 是 是 1 

完整 的 DFA _ 可 

2 2N 1.1N 否 是 MR 

Knuth-Morris-Pratt (算法 5.6 ) 
算法 仅 构 造 不 匹配 的 状态 转换 3N 1.1N 否 是 M 

完整 版 本 ,3N N/M 是 是 R 
Boyer-Moore 算法 en 严 配 的 字符 MN N/M 是 是 R 

蒙特 卡 洛 算法 = 由 
Rabin-Karp 算法 ” (算法 5.8 ) 人 信 : : 

拉 斯 维 加 斯 算法 7N 7N 是 是 1 


* 概率 保证 ， 需 要 使 用 均匀 和 独立 的 散 列 函数 。 


图 答疑 


问 “ 子 字符 串 查找 问题 看 起 来 并 没有 什么 实际 用 处 ， 我 们 真 的 需要 理解 这 些 复 杂 的 算法 吗 ? 

答 ”这 个 ……Boyer-Moore 算法 能 够 将 速度 提高 M 倍 ， 在 实际 应 用 当中 还 是 相当 强大 的 。 另 外 ， 能 够 处 
理 流 输入 (无 需 回 退 ) 的 性 质 也 给 KMP 算法 和 Rabin-Karp 算法 带 来 了 许多 应 用 。 除 了 这 些 直 接 的 
实际 应 用 之 外 ， 这 些 算法 也 为 我 们 介绍 了 抽象 自动 机 和 随机 性 在 算法 设计 领域 的 应 用 。 


大 吾 


图 练习 


为 什么 不 能 通过 将 所 有 字符 都 转换 为 二 进 制 数 并 处 理 二 进 制 的 文本 来 简化 问题 呢 ? 
这 种 方法 并 没有 什么 效果 ， 因 为 字符 的 边界 处 可 能 产生 错误 的 匹配 。 


使 用 算法 5.6 相同 的 API， 开 发 一 个 暴力 子 字符 串 查 找 算法 的 实现 Brute。 

在 Knuth-Morris-Pratt 算法 中 ， 给 出 模式 A A A A A A A A A 的 dfa[][] 数组 ， 按 照 正文 中 的 样 
式 画 出 DFA。 

在 Knuth-Morris-Pratt 算法 中 ， 给 出 模式 ABRACADABRA 的 dfar]r[r] 数 组 按照 正文 中 
的 样式 画 出 DFA。 

编写 一 个 方法 ， 接 受 一 个 字符 串 txt 和 一 个 整数 M 作为 参数 ， 返 回 字 符 串 中 M 个 连续 的 空格 第 一 
次 出 现 的 位 置 ， 如 果 不 存在 则 返回 txt.1ength。 佑 计 你 的 方法 在 一 般 的 文本 中 和 在 最 坏 情 况 下 
所 需 的 字符 比较 次 数 。 

开发 一 个 暴力 子 字符 串 查找 算法 的 实现 BruteForceRL， 从 右 向 左 匹配 模式 字符 串 (算法 5.7 的 简 
化 版 本 ) 。 

给 出 算法 5.7 的 构造 函数 计算 模式 A B RA C A D A B R A 所 得 到 的 right[] 数组 。 

为 暴力 子 字符 串 查找 算法 的 实现 添加 一 个 count 0) 方法 ,统计 模式 字符 串 在 文本 中 的 出 现 次 数 ， 
再 添加 一 个 searchA110) 方法 来 打印 出 所 有 出 现 的 位 置 。 

为 KMP 类 添加 一 个 count(0) 方法 来 统计 模式 字符 串 的 在 文本 中 的 出 现 次 数 ， 再 添加 一 个 
searchA110Q 方法 来 打印 出 所 有 出 现 的 位 置 。 
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5.3.9 为 BoyerMoore 类 添加 一 个 count () 方法 来 统计 模式 字符 串 的 在 文本 中 的 出 现 次 数 ， 青 添加 一 个 
searchA110Q 方法 来 打印 出 所 有 出 现 的 位 置 。 

5.3.10 为 RabinKarp 类 添加 一 个 count 0) 方法 来 统计 模式 字符 串 的 在 文本 中 的 出 现 次 数 ， 再 添加 一 个 
searchA110) 方法 来 打印 出 所 有 出 现 的 位 置 。 

5.3.11 为 算法 5.7 实现 的 Boyer-Moore 算法 构造 一 个 最 坏 情 况 下 的 输入 ( 说明 它 的 运行 时 间 不 是 线性 级 
别 的 ) 。 

5.3.12 为 RabinKarp 类 (算法 5.8 ) 的 check0) 方法 中 添加 代码 ,将 它 变 为 使 用 拉 斯 维 加 斯 算法 的 版 本 ( 检 
查 给 定位 置 的 文本 和 模式 字符 串 是 否 匹 配 ) 。 

5.3.13 在 算法 5.7 实现 的 Boyer-Moore 算法 中 , 证 明 当 c 为 模式 字符 串 中 的 最 后 一 个 字符 时 ， 能 够 将 
right[c] 设 为 c 在 模式 字符 串 中 的 倒数 第 二 次 出 现 的 位 置 。 

5.3.14 使 用 char[] 代替 String 来 表示 文本 和 模式 字符 串 ， 给 出 本 节 中 的 各 种 子 字符 串 查找 算法 的 实现 。 

5.3.15 ”设计 一 个 从 右 向 左 扫描 模式 字符 串 的 暴力 子 字 符 串 查 找 算 法 。 

5.3.16 ”按照 正文 中 轨迹 的 样式 显示 暴力 子 字 符 串 查找 算法 在 处 理 以 下 模式 和 文本 时 的 轨迹 。 
a. 模式 : AAAAAAAB 文本 : AAAAAAAAAAAAAAAAAAAAAAAAB 
b. 模式 : ABABABAB 文本 : ABABABABAABABABABAAAAAAAA 

5.3.17 ”为 以 下 模式 字符 串 画 出 KMP 算法 的 DFA。 
a. AAAAAAB 
b. AACAAAB 
c. ABABABAB 
d. ABAABAAABAAAB 
e. ABAABCABAABCB 

5.3.18 ”假设 模式 字符 串 和 文本 都 是 由 大 小 为 R (不 小 于 2 ) 的 字母 表 随 机 生成 的 字符 串 。 证 明 暴 力 算法 
预期 的 字符 比较 次 数 为 W-MHID)(-R MI-RD 过 2(V-MHD。 

5.3.19 构造 一 个 使 BoyerMoore 算法 ( 仅 使 用 对 不 匹配 字符 的 启发 式 查找 ) 性 能 低下 的 样 例 输入 。 

5.3.20 如何 修改 Rabin-Karp 算法 才能 够 判定 个 模式 (假设 它们 的 长 度 全 部 相同 ) 中 的 任意 子 集 出 现 
在 文本 之 中 ? 
解答 : 计算 所 有 个 模式 字符 串 的 散 列 值 并 将 散 列 值 保存 在 一 个 StringSET( 请 见 练习 5.2.6 ) 对象 中 。 

5.3.21 ”如 何 修改 Rabin-Karp 算法 来 查找 中 间 字 符 为 “通配符 ” 能够 匹配 任意 字符 的 符号 ) 的 模式 字 
符 串 ? 

5.3.22 ”如 何 修改 Rabin-Karp 算法 来 在 Wx N 的 文本 中 查找 一 个 太 x 矿 的 模式 ? 

5.3.23 ”编写 一 个 程序 ， 一 次 读 入 字符 串 中 的 一 个 字符 并 立即 判断 当前 字符 串 是 否 为 回 文 。 提 示 : 使 用 
Rabin-Karp 的 散 列 思想 。 


图 提高 是 

5.3.24 找 出 所 有 子 字 符 串 。 为 我 们 学 习 过 的 4 种 字符 串 查 找 算法 添加 一 个 findA110) 方法 ， 返 回 一 个 
Iterable<Integer> 对 象 使 得 用 例 能 够 遍历 文本 中 模式 字符 串 出 现 的 所 有 位 置 。 

5.3.25 流 输 入 。 为 KMP 类 添加 一 个 search() 方法 ， 接 受 一 个 In 类 型 的 变量 作为 参数 ， 在 不 使 用 其 
他 任何 实例 变量 的 条 件 下 在 指定 的 输入 流 中 查找 模式 字符 串 。 为 RabinKarp 类 也 添加 一 个 类 似 
的 方法 。 


一 ] 
Do 
hj 一 
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5.3.26 


5.3.27 


5.3.28 


5.3.29 


5.3.30 


5.3.31 


5.3.35 


回环 变 位 。 编 写 一 个 程序 ， 对 于 给 定 的 两 个 字符 串 ， 检 查 它 们 是 否 互 为 对 方 的 回环 变 位 。 例 如 
example 和 ampleex。 

串联 重复 查找 。 在 字符 串 s 中 ， 基 础 字符 串 b 的 串联 重复 就 是 连续 将 b 至 少 重复 两 遍 ( 无 重 有 到 ) 
的 一 个 子 字符 串 。 开 发 并 实现 一 个 线性 时 间 的 子 字符 串 查找 算法 ， 接 受 给 定 的 字符 串 b 和 ss， 返 
回 s 中 bb 的 最 长 串联 重复 的 起 始 位 置 。 例如 , 当 b 为 “abcd” 而 s 为 “abcabcababcababcababcab ”时 ， 
你 的 程序 应 该 返回 3。 

暴力 子 字符 串 查 找 算法 中 的 缓冲 区 。 向 你 为 练习 5.3.1 给 出 的 解答 中 添加 一 个 searchQ 方法 ， 
接受 一 个 (In 类 型 的 ) 输入 流 作为 参数 并 在 给 定 的 输入 流 查找 模式 字符 串 。 注 意 : 你 需要 维护 
一 个 至 少 能 够 保存 输入 流 的 前 M 个 字符 的 缓冲 区 。 面 临 的 挑战 是 要 编写 高 效 的 代码 为 任意 输入 
流 初 始 化 、 更 新 和 清理 缓冲 区 。 

Boyer-Moore 算法 中 的 缓冲 区 。 为 算法 5.7 添加 一 个 search() 方法 ， 接 受 一 个 (In 类 型 的 ) 输 
入 流 作为 参数 并 在 给 定 的 输入 流 中 查找 模式 字符 串 。 

二 维 查找 。 实 现 另 一 个 版 本 的 Rabin-Karp 算法 ， 在 二 维 文本 中 查找 模式 ， 假 设 模式 和 文本 都 是 
由 字符 组 成 的 矩形 。 

随机 模式 。 在 一 段 给 定 的 文本 中 查找 一 个 长 度 为 100 的 随机 模式 字符 串 需要 多 少 次 字符 比较 ? 
答 : 一 次 也 不 用 。 以 下 方法 就 可 以 有 效 的 完成 这 个 任务 : 

public boolean search(char[] txt) 

{ return false; } 

因为 一 个 长 度 为 100 的 随机 模式 字符 串 出 现在 任何 文本 中 的 概率 之 低 足 以 让 我 们 认为 它 是 0。 
唯一 的 子 字符 串 。 使 用 Rabin-Karp 算法 的 思想 完成 练习 5.2.14。 

随机 素数 。 为 RabinKarp 类 (算法 5.8) 实现 

longRandomPrime() 方法 。 提 示 : 随机 的 n 位 数 en 

字 是 素数 的 概率 与 1/n 成 正比 。 de 

直线 型 代码 。W Java 的 虚拟 机 ( 以 及 计算 机 上 的 汇 。 s0: if (txt[i]) != 'A' goto sm; 

编 语言 ) 支持 一 种 goto 指令 ， 它 使 我 们 能 够 将 查 。 52 1 CE) 1 5 30 

找 “ 峙 入 ”到 机 器 代码 中 ， 如 下 方 的 程序 所 示 (这 s3: if (txt[i]) != A goto s2; 

段 程序 等 价 于 在 KMP 算法 中 用 KMPdfa 数组 模拟 。 54: if (EXE 1 A oto 33 
模式 的 DFA 的 运行 ， 但 效率 要 高 的 多 ) 。 为 了 避 return i-8; 

免 在 每 次 增 大 i 时 检查 是 否 已 经 到 达 文 本 的 结尾 ， 2 

假设 文本 的 最 后 M 个 字符 就 是 模式 字符 趾 本 身 。 。 处理 模 字符 申 A A B A A A 的 直线 型 代码 
在 这 段 代 码 中 goto 的 标签 与 dfa[] 数组 完全 一 一 对 应 。 编 写 一 个 静态 方法 ， 接 受 一 个 模式 作为 
参数 ， 产 生 一 段 类 似 的 直线 型 代码 来 查找 给 定 的 模式 。 

二 进 制 字符 串 中 的 Boyer-Moore 算法 。 启 发 式 处 理 不 匹配 的 字符 对 于 二 进 制 字符 串 并 没有 什么 作 
用 ， 因 为 匹配 失败 的 可 能 字符 只 有 两 种 ( 而 且 它 们 都 非常 可 能 出 现在 模式 字符 串 中 ) 。 编 写 一 个 
适用 于 二 进 制 字符 串 的 子 字符 串 查找 类 ， 它 应 该 能 够 将 多 个 位 组 合成 可 以 被 算法 5.7 处 理 的 “ 字 
符 ”。 注 意 : 如 果 你 每 次 都 取 5b 位， 那么 需要 一 个 含有 2 个 元 素 的 right[] 数组 。4b 的 值 不 能 太 
大 ， 以 保证 right[] 数组 不 会 太 大 ; 也 不 能 太 小 ， 以 使 文本 中 大 和 多数 b 位 字符 不 太 可 能 出 现在 模 
式 中 一 一 模式 中 含有 M-b+1 种 不 同 的 5 位 字符 ( 从 第 1 到 第 M-b+1 位 的 每 个 位 置 上 各 有 一 个 ) ， 


中 译 法 参考 《代码 大 全 》， 第 二 版 第 14 章 。 一 一 译 者 注 
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因此 M-b+1 远 小 于 2。 例 如， 如 果 你 选择 的 5 使 得 2 约 等 于 1g(4M)， 那么 right[] 数组 中 超过 
四 分 之 三 的 元 素 的 值 都 将 是 -1。 但 不 要 让 b 小 于 M2， 否则 当 模 式 字 符 串 横 跨 两 个 5 位 字符 时 你 
完全 可 能 会 漏 掉 它 。 785 


图 实验 亚 


5.3.36 ”随机 文本 。 编 写 一 个 程序 ， 接 受 整 型 参数 M 和 N， 生 成 一 个 长 度 为 N 的 随机 二 进 制 文本 字符 串 ， 
计算 该 字符 串 的 最 后 M 位 在 整个 字符 串 中 的 出 现 次 数 。 注 意 : 不 同 的 M 值 适用 的 方法 可 能 不 同 。 
5.3.37 随机 文本 的 KMP 算法 。 编 写 一 个 用 例 ， 接 受 整 型 参数 M、N 和 T 并 运行 以 下 实验 T 遍 : 随机 生 
成 一 个 长 度 为 M 的 模式 字符 串 和 一 段 长 度 为 N 的 文本 ， 记 录 使 用 KMP 算法 在 文本 中 查找 该 模式 
时 比较 字符 的 次 数 。 修 改 KMP 类 的 实现 来 记录 比较 次 数 并 打印 出 重复 T 次 之 后 的 平均 比较 次 数 。 
5.3.38 随机 文本 的 Boyer-Moore 算法 。 对 于 Boyer-Moore 算法 完成 上 一 道 练 习 。 
5.3.39 运行 时 间 。 编 写 一 段 程序 ， 用 本 节 学 习 的 4 种 算法 在 《双城记 》 (tale.txt ) 中 查找 以 下 字符 串 并 
记录 时 间 : 
it is a far far better thing that i do than i have ever done 


讨论 你 的 结果 在 何 种 程度 上 验证 了 正文 对 这 几 种 算法 的 性 能 猜想 。 786 
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5.4 正则 表达 式 


在 许多 应 用 程序 中 ， 我 们 在 查找 子 字符 串 时 并 没有 被 查找 模式 的 完整 信息 。 文 本 编辑 器 的 用 户 
可 能 希望 仅 指定 模式 的 一 部 分 ， 或 是 指定 某 种 能 够 匹配 若干 个 不 同 单词 的 模式 ， 或 是 指定 几 种 可 以 
任意 匹配 的 不 同 模式 。 例 如 ， 生 物 学 家 可 能 希望 在 基因 组 序列 中 寻找 满足 特定 条 件 的 基因 。 本 节 中 ， 
我 们 将 会 学 习 如 何 高 效 地 完成 这 种 类 型 的 模式 匹配 。 

5.3 节 中 的 算法 完全 依赖 指定 完整 的 模式 字符 串 ， 因 此 需要 寻找 不 同 的 方法 。 本 节 将 会 学 习 的 
一 些 基 本 工具 能 够 构造 一 个 非常 强大 的 字符 串 查 找 程序 ， 它 能 够 在 长 度 为 Y 的 文本 中 匹配 长 度 为 M 
的 复杂 模式 。 在 最 坏 情况 下 ， 它 所 需 的 时 间 和 MN 成 正比 ， 而 在 一 般 的 应 用 程序 中 还 会 快 得 多 。 

首先 ， 我 们 需要 一 种 描述 模式 的 方法 ， 即 一 种 严谨 的 说 明 上 述 “ 部 分 子 字符 串 的 查找 问题 ”的 
方式 。 这 份 说 明 必须 含有 一 些 比 5.3 节 中 使 用 的 “检查 文本 字符 串 的 第 i 个 字符 和 模式 字符 串 的 第 
j 个 字符 是 否 匹 配 ” 更 加 强大 的 原始 操作 。 为 此 ， 我 们 使 用 正则 表达 式 。 它 能 够 用 自然 、 简 单 而 强 
大 的 3 种 操作 组 合 来 描述 模式 。 

程序 员 使 用 正则 表达 式 的 历史 已 经 有 数 十 年 了 。 随 着 网 络 搜索 的 爆炸 性 增长 ， 它 们 的 使 用 变 得 
更 加 广泛 。 本 节 开 始 会 讨论 几 个 应 用 程序 。 这 不 仅 是 为 了 让 你 感受 它 的 用 途 和 功能 ， 也 是 为 了 让 你 
对 它 的 基本 性 质 更 加 熟悉 。 

和 5.3 节 中 的 KMP 算法 一 样 ， 本 节 也 将 使 用 一 种 能 够 在 文本 中 查找 模式 的 抽象 自动 机 来 描述 
这 3 种 基本 的 操作 。 模 式 匹配 算法 同样 会 构造 一 个 这 样 的 自动 机 并 模拟 它 的 运行 。 当 然 ， 这 种 模式 
匹配 自动 机 比 KMP 算法 的 DFA 更 加 复杂 ， 但 不 会 超出 你 的 想象 。 

你 将 会 看 到 ， 我 们 为 模式 匹配 问题 给 出 的 解答 和 计算 机 科学 中 最 基础 的 问题 有 着 紧密 的 联系 。 
例如 ， 我 们 在 程序 中 用 于 完成 给 定 模式 下 的 字符 串 查找 任务 的 算法 和 Java 系统 中 用 来 将 Java 程序 
转化 为 计算 机 上 的 机 器 语言 的 算法 很 相似 。 我 们 还 会 遇 到 非 确定 性 这 个 概念 。 它 在 人 们 对 高 效 算 法 
的 追求 中 起 到 了 关键 的 作用 ( 请 见 第 6 曹 ) 。 


5.4.1 ”使 用 正则 表达 式 描述 模式 


我 们 的 重点 是 模式 的 描述 ， 它 由 3 种 基本 操作 和 作为 操作 数 的 字符 组 成 。 这 里 ， 我 们 用 语言 指 
代 一 个 字符 串 的 集合 (可 能 是 无 限 的 ) ， 用 模式 指 代 一 种 语言 的 详细 说 明 。 我 们 将 要 学 习 的 规则 和 
大 家 都 很 熟悉 的 算术 表达 式 中 的 规则 十 分 类 似 。 
5.4.1.1 ”连接 操作 

第 一 种 基本 操作 就 是 5.3 节 中 使 用 过 的 连接 操作 。 当 我 们 写 出 AB 时 ， 就 指定 了 一 种 语言 {AB}。 
它 含 有 一 个 由 两 个 字符 组 成 的 字符 串 ,， 由 A 和 B 连接 而 成 。 
5.4.1.2 或 操作 

第 二 种 基本 操作 可 以 在 模式 中 指定 多 种 可 能 的 匹配 。 如 果 我 们 在 两 种 选择 之 间 指 定 了 一 个 或 运 
算 符 ， 那 么 它们 都 将 属于 同一 种 语言 。 我 们 用 竖 线 符号 “|” 表 示 这 个 操作 。 例 如 ，AlIB 指定 的 语言 
是 {A,B3，AIEIIIOIU 指定 的 语言 是 {A,E,I,0,U}。 连 接 操作 的 优先 级 高 于 或 操作 ， 因 此 AB1BCD 
指定 的 语言 是 {AB ,BCD}。 
5.4.1.3” 闭 包 操作 

第 三 种 基本 操作 可 以 将 模式 的 部 分 重复 任意 的 次 数 。 模 式 的 闭 包 是 由 将 模式 和 自身 连接 任意 多 
次 (包括 零 次 ) 而 得 到 的 所 有 字符 串 所 组 成 的 语言 。 我 们 将 “*” 标 记 在 需要 被 重复 的 模式 之 后 ， 
以 表示 闭 包 。 闭 包 操 作 的 优先 级 高 于 连接 操作 ， 因 此 AB* 指定 的 语言 由 一 个 A 和 0 个 或 多 个 B 的 字 
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符 串 组 成 ， 而 A*B 指定 的 语言 由 0 个 或 多 个 A 和 一 个 B 的 字符 串 组 成 。 空 字符 串 的 记号 是 E， 它 存 
在 于 所 有 文本 字符 串 之 中 (包括 A* ) 。 
5.4.1.4 ”括号 

我 们 使 用 括号 来 改变 默认 的 优先 级 顺序 。 例 如 ，C(CAC1B)D 指定 的 语言 是 {CACD ,CBD}，(A1C) 
(CB1QOD) 指定 的 语言 是 {ABD, CBD,ACD,CCD}，(AB)* 指定 的 语言 是 由 将 AB 连接 任意 多 次 得 到 的 
所 有 字符 串 和 空 字符 串 组 成 的 {€,AB,ABAB,...} 

这 些 简单 的 例子 已 经 可 以 写 出 虽然 复杂 但 却 清晰 而 完整 的 描述 某 种 语言 的 正则 表达 式 了 (示例 
请 见 表 5.4.1 ) 。 某 些 语言 可 能 可 以 用 其 他 方式 简单 表述 ， 但 找到 这 些 简单 的 方法 可 能 会 比较 困难 。 
例如 ， 表 格 的 最 后 一 行 中 的 正则 表达 式 指 定 的 就 是 (A1B)* 的 一 个 只 含有 偶数 个 B 的 子 集 。 


表 5.4.1 正则 表达 式 举例 
匹配 的 字符 串 
AC AD BC BD 
AD ABD ACD ABCCBD 
AAA BBAABB BABAAA 








正则 表达 式 
CA1B) (CID) 
A(CB1C)*D 

A* | (A*BA*BA*)* 


不 匹配 的 字符 串 
其 他 所 有 字符 串 
BCD ADD ABCBC 
ABA BBB BABBAAA 



















正则 表达 式 都 是 非常 简单 的 形式 语言 对 象 ， 甚 至 比 你 在 小 学 里 学 到 的 算术 表达 式 更 简单 。 我 们 
将 会 利用 它 的 简洁 性 开发 小 巧 而 高 效 的 算法 来 处 理 它们 。 首 先 给 出 如 下 正式 定义 。 


定义 。 一 个 正则 表达 式 可 以 是 : 
口 空 字符 串 6; 
口 单个 字符 ; 
口 包含 在 括号 中 的 另 一 个 正则 表达 式 ; 
口 两 个 或 多 个 连接 起 来 的 正则 表达 式 ; 
口 由 或 运算 符 分 隔 的 两 个 或 多 个 正则 表达 式 ; 
口 由 闭 包 运 算 符 标记 的 一 个 正则 表达 式 。 


这 段 定义 描述 了 正则 表达 式 的 语法 ,说 明了 怎样 才 是 一 个 合法 的 正则 表达 式 。 在 本 节 中 对 给 定 
正则 表达 式 的 非 形式 化 的 描述 是 它 的 语义 。 作 为 复习 ， 我 们 要 继续 在 形式 定义 中 对 它们 进行 总 结 。 


定义 ( 续 ) 。 每 个 正则 表达 式 表示 的 都 是 一 个 字符 串 的 集合 ， 它 们 的 定义 如 下 所 述 。 

口 空 正则 表达 式 表示 的 字符 串 的 集 售 为 空 ， 含 有 0 个 元 素 。 

口 一 个 字符 表示 的 字符 串 的 集合 含有 一 个 元 素 ， 即 该 字符 本 身 。 

口 一 个 由 括号 和 包含 在 其 中 的 正则 表达 式 组 成 的 正则 表达 式 表示 的 字符 串 的 集合 与 括号 内 
的 正则 表达 式 相同 。 

口 由 两 个 正则 表达 式 连 接 起 来 的 正则 表达 式 表示 的 字符 串 的 集合 为 这 两 个 正则 表达 式 分 别 
表示 的 字符 串 集 合 的 又 乘 。 ( 按照 正则 表达 式 中 指定 的 顺序 ， 由 一 个 字符 串 集 合 中 的 元 
素 和 另 一 个 字符 串 集合 中 的 元 素 相连 接 所 能 够 组 合 而 成 的 所 有 字符 串 。 ) 

口 由 或 运算 符 连 接 的 两 个 正则 表达 式 所 表示 的 字符 串 的 集合 为 两 个 正则 表达 式 所 分 别 表示 
的 字符 串 集 合 的 并 集 。 
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口 由 一 个 正则 表达 式 的 闭 包 所 表示 的 字符 串 的 集合 由 E( 空 字符 串 ) 或 将 被 修饰 的 正则 表 
达 式 所 表示 的 字符 串 集 合 重复 任意 次 所 得 到 的 所 有 字符 串 所 组 成 。 


一 般 来 说 ， 给 定 正 则 表达 式 所 描述 的 语言 可 能 非常 庞大 ， 甚 至 是 无 限 的 。 描 述 一 种 语言 可 以 有 
许多 中 不 同 的 方法 ， 我 们 必须 尝试 给 出 最 简洁 的 模式 ， 就 像 在 不 断 地 尝试 写 出 简洁 的 程序 和 实现 高 
效 的 算法 一 样 。 


5.4.2 缩 略 写 ; 


一 般 的 应 用 程序 都 在 基本 规则 的 基础 上 增加 了 各 种 额外 的 规则 ， 以 力求 简洁 地 描述 实际 应 用 中 
所 需要 的 语言 。 从 理论 角度 来 看 ， 它 们 都 只 是 涉及 多 个 操作 数 的 一 系列 操作 的 缩 略 写法 ; 从 实际 角 
度 来 看 ， 它 们 是 对 基本 操作 的 实用 扩展 ， 以 便 能 够 写 出 小 巧 的 模式 。 
5.4.2.1 字符 集 描述 符 

只 用 一 个 或 几 个 字符 来 直接 表示 一 个 字符 集 时 常 能 够 带 来 方便 。 点 “.” 是 一 个 能 够 表示 任意 
字符 的 通配符 。 包 含 在 方 括号 中 的 一 系列 字符 表示 这 些 字符 中 的 任意 一 个 。 这 一 系列 字符 可 以 由 一 
个 范围 来 表示 。 如 果 开 头 字 符 为 “^”， 这 个 方 括号 表示 的 就 是 任意 非 该 括号 内 的 字符 。 这 些 记 法 
都 是 一 系列 或 操作 的 简写 ， 请 见 表 5.4.2。 


表 5.4.2 字符 集 描述 符 


名 称 记 蒜 举 例 
通配符 3 A.B 

指定 的 集合 包含 在 [] 中 的 字符 [AEIOU]* 
范围 集合 包含 在 [] 中， 由 “-” 分 隔 [A-Z] [0-9] 
补 集 包含 在 [] 中 ， 首 字母 为 “^” [^AEIOU]* 


5.4.2.2” 闭 包 的 简写 

闭 包 运 算 符 表示 将 它 的 操作 数 复制 任意 多 次 。 在 实际 应 用 中 ， 我 们 希望 能 够 灵活 指定 重复 的 次 
数 , 或 者 是 次 数 的 范围 。 我 们 用 “+”( 加 号 ) 表示 至 少 复制 一 次 ,，“?”( 问号 ) 表示 重复 0 次 或 1 次 ， 
用 写 在 “{}”( 花 括号 ) 内 的 数 或 者 范围 来 指定 重复 的 次 数 。 和 刚才 一 样 ， 这 些 记 法 也 是 一 系列 基 
本 的 连接 、 或 和 闭 包 操作 的 简写 ， 请 见 表 5.4.3。 


表 5.4.3 闭 包 的 简写 〈 指 定 操作 数 的 重复 次 数 ) 


选 项 记 法 举 例 原始 写法 语言 中 的 字符 串 ”不 在 语言 中 的 字符 串 
至 少 重复 1 次 所 CAB)+ (AB) (AB)* AB ABABAB € BBBAAA 
重复 0 或 1 次 ， (AB)? EIAB | E AB 所 有 其 他 字符 串 
重复 指定 次 数 由 由 指定 次 数 (AB) {33} (AB) (AB) (AB) ABABAB 所 有 其 他 字符 串 
重复 指定 范围 的 次 数 ”由 {} 指定 范围 i {1= Ss | CAB) AB ABAB 所 有 其 他 字符 串 


5.4.2.3 ” 转 义 序列 

某 些 字符 , 例如 “\”、“.”、“|”、“*”、“(“ 和 ”) ”， 都 是 用 来 构造 正则 表达 式 的 元 字 
符 。 我 们 使 用 以 反 斜 杠 开头 的 转 义 序列 来 将 元 字符 和 字母 表 中 的 字符 区 别 开 来 。 一 个 转 义 序列 可 以 
是 一 个 “” 加 上 单个 元 字符 ( 这 就 表示 这 个 字符 本 身 ) 。 例 如 ，“\” 表 示 的 就 是 “"”。 其 他 转 义 
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序列 表示 了 特殊 字符 和 空白 字符 。 例 如 ，“t” 表 示 一 个 制 表 符 ，“\n” 表 示 一 个 换行 符 ，“\s” 表 
示 任 意 空白 字符 。 


5.4.3 ”正则 表达 式 的 实际 应 用 

实际 应 用 已 经 证 明了 正则 表达 式 善 于 描述 与 语言 有 关 的 内 容 。 因 此 ， 正 则 表达 式 使 用 广泛 ， 这 
方面 的 研究 也 比较 深入 。 为 了 让 你 能 在 熟悉 正则 表达 式 的 同时 向 你 展示 一 些 它 的 用 途 ， 在 讨论 正则 
表达 式 的 模式 匹配 算法 之 前 先 给 出 一 些 实际 应 用 的 例子 。 正 则 表达 式 在 计算 机 科学 理论 中 也 起 到 了 
重要 的 作用 。 在 本 书 中 完整 说 明 它 的 应 用 范围 不 切实 际 ， 但 会 在 适当 的 地 方 提 到 相关 的 理论 成 果 。 
5.4.3.1 子 字 符 串 查找 

我 们 的 总 体 目 标 是 开发 一 种 算法 ， 能 够 判定 给 定子 字符 串 是 否 包含 在 给 定 正则 表达 式 所 描述 的 
字符 串 集合 之 中 。 如 果 文 本 包含 在 模式 所 描述 的 语言 之 中 ， 就 称 文本 和 模式 相 匹 配 。 正 则 表达 式 的 
模式 匹配 一 般 化 了 5.3 节 中 的 子 字符 串 查 找 问题 。 准 确 地 说 ， 要 在 一 段 文本 txt 中 查找 一 个 子 字 符 
串 pat， 就 是 检查 txt 是 否 存在 于 模式 “.*pat.*” 所 描述 的 语言 之 中 。 
5.4.3.2 ”合法 性 检查 

在 使 用 互联 网 时 ,你 常常 会 遇 到 正则 表达 式 。 当 你 在 某 个 商业 网 站 上 输入 一 个 日 期 或 是 账号 时 ， 
输入 处 理 程序 会 检查 输入 的 格式 是 否 正确 。 进 行 这 类 检查 的 一 种 方式 是 用 代码 检查 所 有 可 能 出 现 的 
情况 : 如 果 你 应 该 输入 一 个 金额 ( 美元 ) ， 代 码 就 会 检查 第 一 个 字符 是 否 是 “$”， 而且“$” 之 后 
的 字符 是 否 是 一 组 数字 ， 等 等 。 更 好 的 办 法 是 定义 一 个 正则 表达 式 来 描述 所 有 合法 的 输入 。 之 后 ， 
检查 用 户 的 输入 是 否 合法 就 完全 是 模式 匹配 问题 了 : 输入 是 否 包含 在 正则 表达 式 所 描述 的 语言 之 中 
吗 ? 随 着 这 种 检查 的 广泛 应 用 ， 使 用 正则 表达 式 进 行 常见 检查 的 库 在 互联 网 上 已 经 随处 可 见 ， 请 见 
表 5.4.4。 一 般 来 说 ， 相 比 一 个 能 够 检查 所 有 情况 的 程序 ， 正 则 表达 式 是 对 所 有 有 效 字 符 串 的 集合 更 


| 
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加 准确 和 精炼 的 表达 。 


表 5.4.4 正则 表达 式 的 典型 应 用 〈 简 化 版 本 ) 
正则 表达 式 


















A HAYSTACK NEEDLE IN 
(800) 867-5309 
Pattern_Matcher 
gcgaggaggcggcggctg 
rs@cs.princeton.edu 


5.4.3.3 ”程序 员 的 工具 箱 

正则 表达 式 模式 匹配 的 起 源 是 Unix 的 命令 grep， 它 会 打印 出 和 给 定 正则 表达 式 匹 配 的 所 有 输 
入 行 。 这 个 工具 是 数 代 程 序 员 的 无 价 之 宝 ， 而 正则 表达 式 也 已 经 被 内 置 于 许多 现代 编程 系统 之 中 ， 
从 awk 和 emacs， 到 Perl、Python 和 Javascript。 例 如 ， 某 个 目录 中 含有 许多 .java 文件 ， 而 你 希望 
知道 哪些 文件 使 用 了 StdIn。 这 条 命令 可 以 很 快 给 出 答案 : 

% grep StdIn *.java 

它 会 打印 出 每 个 文件 中 与 “* .StdIn.*” 匹 配 的 每 一 行 代码 。 
5.4.3.4 ”基因 组 

生物 学 家 也 会 使 用 正则 表达 式 来 研究 重要 的 科学 问题 。 例 如 ， 人 类 的 基因 序列 的 某 个 区 域 可 以 
用 正则 表达 式 gcg (cgg)*ctg 描述 ， 其 中 模式 cgg 的 重复 次 数 在 不 同 的 个 体 之 间 有 很 大 区 别 。 人 们 


字符 串 查找 
电话 号 码 
Java 标识 符 
基因 组 
电子 邮件 地 址 
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已 知 某 种 能 够 造成 智力 障碍 和 其 他 一 些 症 状 的 基因 疾病 和 该 模式 的 高 重复 次 数 有 关 。 
5.4.3.5 “搜索 

互联 网 搜索 引擎 都 支持 正则 表达 式 ， 但 可 能 不 是 非常 完整 。 一 般 来 说 ， 如 果 你 希望 通过 “|” 指 
定 其 他 的 匹配 模式 或 者 通过 “*” 产 生 重复 ， 它 都 能 做 到 。 
5.4.3.6 ”正则 表达 式 的 可 能 性 

理论 计算 机 科学 的 第 一 党 入门 课程 就 是 找 出 正则 表达 式 所 能 够 指定 的 语言 集合 。 例 如 ， 你 可 能 
会 感到 意外 的 是 ， 正 则 表达 式 能 够 实现 取 余 操作 : 例如 (0 | 1(C01*0)*1)* 描述 的 所 有 由 0 和 1 组 
成 的 字符 串 都 是 3 的 倍数 的 二 进 制 表示 ! 也 就 是 说 ，11、110、1001 和 1100 都 在 这 个 语言 之 中 ， 
而 10、1011 和 10000 都 不 在 。 
5.4.3.7 局 限 

并 不 是 所 有 的 语言 都 可 以 用 正则 表达 式 定义 。 一 个 令 人 深思 的 示例 就 是 不 存在 能 够 描述 所 有 合 
法 正则 表达 式 字符 串 的 集合 的 正则 表达 式 。 这 个 示例 的 简单 版 本 包括 无 法 使 用 正则 表达 式 检查 括号 
是 否 匹 配 完整 以 及 检查 字符 串 中 的 A 和 B 的 数量 是 否 一 样 多 。 

这 些 例子 都 只 是 冰山 一 角 。 正 则 表达 式 是 计算 性 基础 设施 中 非常 实用 的 一 部 分 ， 对 于 帮助 我 们 
理解 计算 的 本 质 起 到 了 重要 的 作用 。 和 KMP 算法 一 样 ， 下 面 将 要 描述 的 算法 也 是 在 探索 这 个 理论 
过 程 中 的 副产品 。 


5.4.4” 非 确 定 有 限 状 态 自动 机 


我 们 可 以 将 Knuth-Morris-Pratt 算法 看 作 一 台 由 模式 字符 串 构 造 的 能 够 扫描 文本 的 有 限 状态 自 
动机 。 对 于 正则 表达 式 ， 我 们 要 将 这 个 思想 推 而 广 之 。 

KMP 的 有 限 状 态 自动 机 会 根据 文本 中 的 字符 改变 自身 的 状态 。 当 且 仅 当 自 动机 达到 停止 状态 
时 它 才 找到 了 一 个 匹配 。 算 法 本 身 就 是 模拟 这 种 自动 机 ， 这 种 自动 机 的 运行 很 容易 模拟 的 原因 是 因 
为 它 是 确定 性 的 : 每 种 状态 的 转换 都 完全 由 文本 中 的 字符 所 决定 。 

要 处 理 正则 表达 式 ， 就 需要 一 种 更 加 强大 的 抽象 自动 机 。 因 为 或 操作 的 存在 ， 自 动机 无 法 仅 根 
据 一 个 字符 就 判断 出 模式 是 否 出 现 ; 事实 上 ， 因 为 闭 包 的 存在 ， 自 动机 甚至 无 法 知道 需要 检查 多 少 
字符 才 会 出 现 匹 配 失败 。 为 了 克服 这 些 困难 ， 我 们 需要 非 确 定性 的 自动 机 : 当面 对 匹配 模式 的 多 种 
可 能 时 ， 自 动机 能 够 “ 猜 出 ”正确 的 转换 ! 你 也 许 会 认为 这 种 能 力 是 不 可 能 的 ， 但 你 会 看 到 ， 编 写 
一 个 程序 来 构造 非 确 定 有 限 状态 自动 机 ( NFA ) 并 有 效 模拟 它 的 运行 是 很 简单 的 。 正 则 表达 式 模式 匹 
配 程序 的 总 体 结 构 和 KMP 算法 的 总 体 结构 几乎 相同 : 

口 构造 和 给 定 正则 表达 式 相 对 应 的 非 确定 有 限 状 态 自 动机 ; 

口 模拟 NFA 在 给 定 文 本 上 的 运行 轨迹 。 

Kleene 定理 是 理论 计算 机 科学 中 的 一 个 重要 结论 ， 它 证 明了 对 于 任意 正则 表达 式 都 存在 一 个 与 
之 对 应 的 非 确定 有 限 状 态 自 动机 (反之 亦 然 ) 。 我 们 会 学 习 该 定理 的 证 明 并 演示 如 何 将 任意 正则 表 
达 式 转变 为 一 台 非 确定 有 限 状 态 自动 机 ， 然 后 模拟 NFA 的 运行 轨迹 来 完成 模式 匹配 任务 。 

在 学 习 如 何 构造 模式 匹配 的 NFA 之 前 ， 先 来 看 一 个 示例 ， 它 说 明了 NFA 的 性 质 和 操作 。 请 看 
图 5.4.1， 它 所 显示 的 NFA 是 用 来 判断 一 段 文本 是 否 包含 在 正则 表达 式 ((A*B|AC)D) 所 描述 的 语言 
之 中 。 如 这 个 示例 所 示 ， 我 们 所 定义 的 NFA 有 着 以 下 特点 。 

口 长 度 为 MM 的 正则 表达 式 中 的 每 个 字符 在 所 对 应 的 NFA 中 都 有 且 只 有 一 个 对 应 的 状态 。NFA 

的 起 始 状态 为 0 并 含有 一 个 ( 虚拟 的 ) 接受 状态 M。 
口 字母 表 中 的 字符 所 对 应 的 状态 都 有 一 条 从 它 指出 的 边 ， 这 条 边 指向 模式 中 的 下 一 个 字符 所 对 
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应 的 状态 ( 图 中 的 黑色 的 边 ) 。 

口 元 字符 “(”、“)”、“|” 和 “*” 所 对 应 的 状态 至 少 含有 一 条 指出 的 边 ( 图 中 的 红色 的 边 ) ， 
这 些 边 可 能 指向 其 他 的 任意 状态 。 

口 有 些 状态 有 多 条 指出 的 边 ， 但 一 个 状态 只 能 有 一 条 指出 的 黑色 边 。 





5.4.1 模式 (CA*B1AC)D) 所 对 应 的 NFA ( 另 见 彩 插 ) 


我 们 约定 将 所 有 的 模式 都 包含 在 括号 中 ， 因 此 NFA 中 的 第 一 个 状态 对 应 的 是 左 括号 ， 而 最 后 
一 个 状态 对 应 的 是 右 括号 ( 并 能 够 转换 为 接受 状态 ) 。 
和 5.3 节 中 的 DFA 一 样 ， 在 NFA 中 也 是 从 状态 0 开始 读 取 文 本 中 的 第 一 个 字符 。NFA 在 状态 的 转 
换 中 有 时 会 从 文本 中 读 取 字符 ， 从 左 向 右 一 次 一 个 。 但 它 和 DEFA 有 着 一 些 基本 的 不 同 : 
口 在 图 中 ， 字 符 对 应 的 是 结 点 而 不 是 边 ; 
口 NFA 只 有 在 读 取 了 文本 中 的 所 有 字符 之 后 才能 识别 它 ， 而 DFA 并 不 一 定 需要 读 取 文本 中 的 
全 部 内 容 就 能 够 识别 一 个 模式 。 
这 些 不 同 并 不 是 关键 一 一 我 们 选择 的 是 最 适合 研究 的 算法 的 自动 机 版 本 。 
现在 的 重点 是 检查 文本 和 模式 是 否 匹 配 一 一 为 了 达到 这 个 目标 ， 自 动机 需要 读 取 所 有 文本 并 到 
达 它 的 接受 状态 。 在 NFA 中 从 一 个 状态 转移 到 另 一 个 状态 的 规则 也 与 DFA 不 同一 一 在 NFA 中 状态 
的 转换 有 以 下 两 种 方式 ， 请 见 图 5.4.2。 
口 如 果 当 前 状态 和 字母 表 中 的 一 个 字符 相对 应 且 文本 中 的 当前 字符 和 该 字符 相 匹 配 ， 自 动机 可 
以 扫 过 文本 中 的 该 字符 并 ( 由 黑色 的 边 ) 转换 到 下 一 个 状态 。 我 们 将 这 种 转换 称 为 匹配 转换 。 
口 自动 机 可 以 通过 红色 的 边 转换 到 另 一 个 状态 而 不 扫描 文本 中 的 任何 字符 。 我 们 将 这 种 转换 称 
为 人- 转换， 也 就 是 说 它 所 对 应 的 “匹配 ”是 一 个 空 字 符 串 E。 








A A A A B D 
二 和 宝生 玉生 二 全 太一 > 并 二 
匹配 转换 : 继续 扫描 下 e- 转 换 : 无 匹配 扫描 了 所 有 文本 字符 
一 个 字符 并 改变 状态 时 的 状态 转换 并 达到 接受 状态 : NFA 
识别 了 文本 794 


二 
\D 
un 


图 5.4.2 ”找到 与 ((A*B | AC)D)NFA 相 匹 配 的 模式 ( 男 见 彩 插 ) 


例如 , 假设 输入 为 A A A A B D 并 启动 正则 表达 式 (CA*B1AC)D) 所 对 应 的 自动 机 (起 始 状态 为 0 ) 。 
图 5.4.2 显示 的 一 系列 状态 转换 最 终 到 达 了 接受 状态 。 这 一 系列 的 转换 说 明 输 入 文本 是 属于 正则 表达 式 
所 描述 的 字符 串 的 集合 之 中 的 一 一 即 文本 和 模式 相 匹配 。 按 照 NFA 方 式 ,我 们 称 该 NFA 识别 了 这 段 文本 。 

图 5.4.3 的 例子 说 明了 即使 对 于 类 似 于 A A A A B D 这 种 NFA 本 应 该 能 够 识别 的 输入 文本 ， 
也 可 以 找到 一 个 使 NFA 停滞 的 状态 转换 序列 。 例 如 ， 如 果 NFA 选择 在 扫描 完 所 有 A 之 前 就 转换 到 
状态 4， 它 就 无 法 再 继续 前 进 了 ， 因 为 离开 状态 4 的 唯一 办 法 是 匹配 8。 这 两 个 例子 说 明了 这 种 自 
动机 的 不 确定 性 。 在 扫描 了 一 个 A 并 到 达 状 态 3 之 后 ，NFA 面临 着 两 个 选择 : 它 可 以 转换 到 状态 4， 
或 者 回 到 状态 2。 这 次 选择 或 者 会 使 它 最 终 达 到 接受 状态 ( 如 第 一 个 例子 所 示 ) 或 者 进入 停滞 ( 如 
第 二 个 例子 所 示 ) 。NFA 在 状态 1 时 也 需要 进行 选择 ( 是 否 由 6- 转换 到 达 状 态 2 或 者 状态 6 ) 。 
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这 个 例子 说 明了 NFA 和 DFA 之 间 的 关 A A A 
键 区 别 : 因为 在 NFA 中 离开 一 个 状态 的 转换 。 0 一 1 一 2 一 3 一? 一 34 、、 天 法 敲 开 居 态 4 
可 能 有 多 种 ， 因 此 从 这 种 状态 可 能 进行 的 转 如 果 输 入 为 AAAABD， 
换 是 不 确定 的 一 一 即使 不 扫描 任何 字符 ， 它 那么 下 一 个 状态 转换 就 猜 错 了 
在 不 同 的 时 间 所 进行 的 状态 转换 也 可 能 是 不 A 
同 的 。 要 使 这 种 自动 机 的 运行 有 意义 ， 所 设 0 一 1] 一 6 一 ~、 寺 法 高 开关 起 7 
想 的 NFA 必须 能 够 猜测 对 于 给 定 的 文本 进行 
哪 种 转换 ( 如 果 有 的 话 ) 才能 最 终 到 达 接 受 由 


状态 。 换 名 话说 ， 当 上 且 仅 当 一 个 NFA 从 状态 01 一 2 一 3 一 2 一 3 一 2 一 3 一 2 一 3 一 4 ~ 无 法 离 


0 开始 从 头 读 取 了 一 段 文 本 中 的 所 有 字符 ， 开 状 态 4 
进行 了 一 系列 状态 转换 并 最 终 到 达 了 接受 状 。 图 5.43 使 得 CCA*B|AC)D) 的 NEA 进 入 停滞 的 状 
态 时 ， 则 称 该 NFA 识别 了 一 个 文本 字符 串 。 态 转换 序列 


相反 ， 当 且 仅 当 对 于 一 个 NEFA 没有 任何 匹配 
转换 和 6- 转换 的 序列 能 够 扫描 所 有 文本 字符 并 到 达 接 受 状 态 时 ， 则 称 该 NFA 无 法 识别 这 段 文本 字 
符 串 。 

和 DFA 一 样 ， 这 里 列 出 所 有 状态 的 转换 即 可 跟踪 NFA 处理 文本 字符 串 的 轨迹 。 任 意 类 似 的 结 
束 于 最 终 状 态 的 转换 序列 都 能 证 明 某 个 自动 机 识别 了 某 个 字符 串 ( 也 可 能 有 其 他 的 证 明 ) 。 但 对 于 
一 段 给 定 的 文本 ， 应 该 如 何 找到 这 样 一 个 序列 呢 ? 对 于 另 一 段 给 定 的 文本 我 们 应 该 如 何 证 明 不 存在 
这 样 一 个 序列 呢 ? 这 些 问 题 的 答案 比 你 想象 的 要 简单 ， 即 系统 地 尝试 所 有 的 可 能 性 ! 


5.4.5 ”模拟 NFA 的 运行 

存在 能 够 猜测 到 达 接受 状态 所 需 的 状态 转换 自动 机 的 设想 就 好 像 能 够 写 出 解决 任意 问题 的 程序 
一 样 : 这 看 起 来 很 荡 雇 。 经 过 仔细 思考 ， 你 会 发 现 这 个 任务 从 概念 上 来 说 并 不 困难 : 我 们 可 以 检查 
所 有 可 能 的 状态 转换 序列 ， 只 要 存在 能 够 到 达 接 受 状态 的 序列 ， 我 们 就 会 找到 它 。 
5.4.5.1 自动 机 的 表示 

首先 ， 需 要 能 够 表示 NFA。 选 择 很 简单 ， 正 则 表达 式 本 身 已 经 给 出 了 所 有 状态 名 ( 0 到 M 之 间 
的 整数 ， 其 中 M 为 正则 表达 式 的 长 度 ) 。 用 char 数组 re[] 保存 正则 表达 式 本 身 ， 这 个 数组 也 表 
示 了 匹配 的 转换 ( 如 果 re[i] 存在 于 字母 表 中 ， 那么 就 存在 一 个 从 1 到 i+1 的 匹配 转换 ) 。e- 转 
换 最 自然 的 表示 方法 当然 是 有 向 图 一 一 它们 都 是 连接 0 到 M 之 间 的 各 个 顶点 的 有 向 边 ( 图 5.4.4 中 
的 红色 边 ) 。 因 此 ， 我 们 用 有 向 图 G 表示 所 有 €- 转换 。 在 讨论 模拟 的 过 程 之 后 将 讨论 由 给 定 正则 
表达 式 构建 有 向 图 的 任务 。 对 于 上 面 的 例子 ， 它 的 有 向 图 含有 以 下 9 条 边 : 
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5.4.5.2 ”NFA 的 模拟 与 可 达 性 

为 了 模拟 NFA 的 运行 轨迹 ， 我 们 会 记录 自动 机 在 检查 当前 输入 字符 时 可 能 遇 到 的 所 有 状态 的 
集合 。 这 里 ， 关 键 的 计算 是 我 们 已 经 熟悉 并 在 算法 4.4 中 解决 的 多 点 可 达 性 问题 。 我 们 会 查找 所 有 
从 状态 0 通过 6e- 转换 可 达 的 状态 来 初始 化 这 个 集合 。 对 于 集合 中 的 每 个 状态 ， 检 查 它 是 否 可 能 与 第 
一 个 输入 字符 相 匹配 。 检 查 并 匹配 之 后 就 得 到 了 NFA 在 匹配 第 一 个 字符 之 后 可 能 到 达 的 状态 的 集合 。 
这 里 还 需要 向 该 集合 中 加 入 所 有 从 该 集合 中 的 任意 状态 通过 €- 转换 可 以 到 达 的 其 他 状态 。 有 了 这 
个 匹配 了 第 一 个 字符 之 后 可 能 到 达 的 所 有 状态 的 集合 ，E- 转换 有 向 图 中 的 多 点 可 达 性 问题 的 答案 就 
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是 可 能 匹配 第 二 个 输入 字符 的 状态 集合 。 例 如 ， 在 示例 NFA 中 初始 状态 集合 为 {0,1,2,3,4,6}， 
如 果 第 一 个 输入 字符 为 A， 那 么 NFA 通过 匹配 转换 可 能 到 达 的 状态 是 {3,7}， 然 后 它 可 能 进行 3 到 
2 或 3 到 4 的 €- 转换， 因此 可 能 与 第 二 个 字符 匹配 的 状态 集合 为 {2,3,4,7}。 重 复 这 个 过 程 直到 
文本 结束 可 能 得 到 两 种 结果 : 

口 可 能 到 达 的 状态 集合 中 含有 接受 状态 ; 

口 可 能 到 达 的 状态 集合 中 不 含有 接受 状态 。 

第 一 种 结果 说 明 存 在 某 种 转换 序列 使 NFA 到 达 接 受 状态 。 第 二 种 结果 说 明 对 于 该 输入 NFA 总 
是 会 停滞 ， 导 致 匹配 失败 。 使 用 我 们 已 经 实现 了 的 SET 数据 类 型 和 用 于 在 有 向 图 中 解决 多 点 可 达 性 [797] 
问题 的 DirectedDFS 类 ， 下 面 的 NFA 模拟 代码 只 是 翻译 了 刚才 的 描述 。 你 可 以 用 图 5.4.4 检查 你 
对 这 段 代码 的 理解 ， 它 显示 了 样 例 输入 的 完整 轨迹 。 

0 1 2 3 4 6 : 从 起 始 状态 开始 通过 e- 转 换 能 够 到 达 的 所 有 状态 的 集合 


0 1 2 3 4 6 过 8 9 10 11 


@ 
3 7 : 匹配 A 之 后 到 达 的 状态 的 集合 
0 1 > 3 4 5 6 7 8 全 10 11 
(A OO 
2 3 4 7 : 匹配 A 之 后 通过 -转换 能 够 到 达 的 所 有 状态 的 集合 
0 1 2 3 4 5 6 7 8 9 10 了 
"SD (<) 
3 : 匹配 A A 之 后 到 达 的 状态 的 集合 
0 1 2 3 4 5 6 7 8 9 10 11 
CE 


2 3 4 : 匹配 A A 之 后 通过 e- 转 换 能 够 到 达 的 所 有 状态 的 集合 
0 


1 2 3 4 5 6 7 8 3 10 11 


C+) 


5 : 匹配 A A B 之 后 到 达 的 状态 的 集合 
0 1 2 3 4 5 6 7 8 9 10 11 


二 一 人 


5 8 9 : 匹配 A A B 之 后 通过 -转换 能 够 到 达 的 所 有 状态 的 集合 
0 1 2 3 4 5 6 7 8 9 10 11 
(0) 


10 : 匹配 A A B D 之 后 到 达 的 状态 的 集合 


0 1 2 3 4 5 6 7 8 9 


10 11 : 匹配 A A B D 之 后 通过 e -转换 能 够 到 达 的 所 有 状态 的 集合 


10 
0 1 2 3 4 5 6 了 8 9 10 11 


接受 ! 


图 5.4.4 对 ((A*B|AC)D) 的 NFA 处 理 输入 A A B DD 的 模拟 


命题 Q。 判 定 一 个 长 度 为 MM 的 正则 表达 式 所 对 应 的 NFA 能 否 识别 一 段 长 度 为 W 的 文本 所 需 的 
时 间 在 最 坏 情况 下 和 MN 成 正比 。 


证 明 。 对 于 长 度 为 W 的 文本 中 的 每 个 字符 ， 我 们 都 会 遍历 一 个 大 小 不 超过 M 的 状态 集合 并 在 <- 转 
换 的 有 向 图 中 进行 深度 优先 搜索 。 下 面 即 将 学 习 的 自动 机 的 构造 可 以 证 明 该 有 向 图 中 的 边 数 不 会 超 
过 2M 条 ， 因 此 每 次 深度 优先 搜索 在 最 坏 情况 下 的 运行 时 间 与 MM 成 正比 。 


请 仔细 思考 一 下 这 个 不 同 寻常 的 结果 。 它 在 最 坏 情 况 下 的 成 本 为 文本 和 模式 的 长 度 之 积 ， 这 个 
成 本 和 5.3 节 开 始 时 学 习 的 最 坏 情况 下 寻找 固定 子 字符 串 的 初级 算法 的 成 本 竟然 是 相同 的 ! 


public boolean recognizes(String txt) 
{ // NFA 是 否 能 够 识别 文本 txt? 
Bag<Integer> pc = new Bag<Integer>(); 
DirectedDFS dfs = new DirectedDFS(G, 0); 
for (int v= 0; Vv < G.V(O); Vv++) 
if (dfs.marked(v)) pc.add(v); 


for (int 1 = 0; i < txt.length(O); i++) 

{ // 计算 txt[i+1] 可 能 到 达 的 所 有 NFA 状 态 
Bag<Integer> match = new Bag<Integer>(); 
For int Vibey) 

if (v < M) 
if (re[v] ==; txt.charAt(i) || re[v] == ".') 
match.add(v+1); 
pc = new Bag<Integer>(); 
dfs = new DirectedDFS(G, match); 
for Cint v = 0; Vv < G.VO; Vv++) 
if (dfs.marked(v)) pc.add(v); 


} 


for (int vv : pc) if (Cv == M) return true; 
return false; 


使 用 NFA 模 拟 的 模式 匹配 


5.4.6 ”构造 与 正则 表达 式 对 应 的 NFA 


根据 正则 表达 式 和 大 家 所 熟悉 的 算术 表达 式 的 相似 性 ， 你 肯定 不 会 惊讶 于 将 正则 表达 式 转化 为 
NEA 的 过 程 在 某 种 程度 上 类 似 于 1.3 节 中 使 用 Dijkstra 的 双 栈 算法 对 表达 式 求 值 的 过 程 。 这 两 个 过 
程 的 不 同 之 处 在 于 : 

口 正则 表达 式 中 的 连接 操作 并 没有 运算 符 ; 

口 正则 表达 式 的 闭 包 (* ) 是 一 个 一 元 运算 符 ; 

口 正则 表达 式 只 有 一 个 二 元 运算 符 ， 即 或 (|) 。 

我 们 不 会 在 两 者 的 不 同和 相似 之 处 深究 , 而 是 会 学 习 一 种 为 正则 表达 式 量 身 定做 的 实现 。 例如 ， 
这 里 只 需要 一 个 栈 ， 而 不 是 两 个 。 

根据 上 一 小 节 开 头 讨论 的 NFA 表示 ， 这 里 只 需要 构造 一 个 由 所 有 6- 转换 组 成 的 有 向 图 6。 正 
则 表达 式 本 身 和 本 节 开 头 学 习 过 的 形式 定义 足以 提供 所 需 的 所 有 信息 。 根 据 Dijkstra 的 算法 ,我们 
会 使 用 一 个 栈 来 记录 所 有 左 括号 和 或 运算 符 的 位 置 。 
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5.4.6.1 ”连接 操作 

对 于 NFA， 连 接 操作 是 最 容易 实现 的 了 。 状 态 的 匹配 转换 和 字母 表 中 的 字符 的 对 应 关系 就 是 连 
接 操 作 的 实现 。 
5.4.6.2 ”括号 

我 们 要 将 正则 表达 式 字符 串 中 所 有 左 括号 的 索引 压 入 栈 中 。 每 当 我 们 遇 到 一 个 右 括号 ， 我 们 最 
终 都 会 用 后 文 所 述 的 方式 将 左 括号 从 栈 中 弹出 。 和 Dijkstra 算法 一 样 ， 栈 可 以 很 自然 地 处 理 垦 套 的 
括号 。 
5.4.6.3 ” 闭 包 操作 

闭 包 运算 符 (* ) 只 可 能 出 现在 (i) 单个 字符 之 后 〈 此 时 将 在 该 字符 和 “*” 之 间 添 加 相互 指向 
的 两 条 €- 转换 ) ,或 者 是 (i 右 括号 之 后 ， 此 时 将 在 对 应 的 左 括号 ( 即 栈 顶 元 素 ) 和 “*” 之 间 添 
加 相互 指向 的 两 条 e- 转换 。 
5.4.6.4 “或 ”表达 式 

在 形 如 (A1B) 的 正则 表达 式 中 , A 和 B 也 都 是 正则 表达 式 。 我们 的 处 理 方式 是 添加 两 条 6- 转换 : 
一 条 从 左 括号 所 对 应 的 状态 指向 B 中 的 第 一 个 字符 所 对 应 的 状态 ， 另 一 条 从 “|” 字 符 所 对 应 的 状态 
指向 右 括 号 所 对 应 的 状态 。 将 正则 表达 式 字 符 串 中 “||” 运算 符 的 索引 ( 以 及 如 上 文 所 述 的 左 括号 的 
索引 ) 压 入 栈 中 ,这样 在 到 达 右 括号 时 这 些 所 需 信 息 都 会 在 栈 的 顶部 。 这 些 €- 转换 使 得 NFA 能 够 
在 这 两 者 之 间 进 行 选 择 。 此 时 并 没有 像 平 常 一 样 添加 一 条 从 “|” 运 算 符 所 对 应 的 状态 到 下 一 个 字符 

所 对 应 的 状态 的 €- 转换 一 一 NFA 离开 “或 ” 运 


es 算 符 的 唯一 方式 就 是 通过 某 种 状态 转换 到 达 有 
CE 括号 所 对 应 的 状态 。 

G.addEdgeCi，i+1) ; 这 些 简 单 的 规则 足以 构造 任意 复杂 的 正则 

Sg 表达 式 所 对 应 的 NFA。 算 法 5.9 实现 了 这 些 规 

闭 包 表达 式 则 。 它 的 构造 函数 创建 了 给 定 正则 表达 式 所 对 

ij 和 ja 应 的 e- 转换 有 向 图 。 该 算法 处 理 样 例 的 轨迹 如 

cd 图 5.4.7 所 示 。 图 5.4.5、 图 5.4.6 和 练习 中 给 出 

Be 了 一 些 其 他 的 例子 ， 我们 也 希望 你 自己 通过 更 

G.addEdge(i+1, 1p); 多 的 示例 加 深 对 这 个 过 程 的 理解 。 为 了 实现 的 

“或 ”操作 表达 式 简洁 和 清晰 ， 我 们 将 一 些 实现 细节 ( 处 理 元 字 


1 pe 符 、 字 符 集 描述 符 、 闭 包 的 缩 略 写法 和 多 向 “或 ” 
OOO © 运算 等 ) 留 做 了 练习 ( 请 见 练习 5.4.16 和 练习 
G.addEdge(1lp, or+1); 5.4.21 ) 。 在 没有 这 些 扩 展 的 情况 ，NFA 构造 
i i 过 程 所 需 的 代码 非常 少 ， 是 我 们 所 见 过 的 最 巧 

图 5.4.5 ”NFA 的 构造 规则 妙 的 算法 之 一 。 






CReoOOr-O-CREOEOr-O CAHOON 


图 5.4.6 模式 (.*AB((C|D*E)F)*G) 所 对 应 的 NFA 
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算法 5.9 ”正则 表达 式 的 模式 匹配 (grep) 


public class NFA 


{ 
private char[] re; // 匹配 转换 
private Digraph C; // epsi1on 转 换 
private int M; // 状态 数量 


public NFA(String regexp) 

{ // 根据 给 定 的 正则 表达 式 构造 NFA 
Stack<Integer> ops = new Stack<Integer>() ; 
re = regexp.toCharArray() ; 

M = re.length; 
G = new Digraph (M+1); 


for Cint 1 = 0 1 < MI 14+) 
int lp = i; 
if (re[i] == '(' || re[i] == "|') 
ops.push(i); 
else if (re[i] == ')') 
{ 
int or = ops.pop(); 
if (Cre[or] == "|') 
{ 
1p = ops.popO; 
G.addEdge(1lp, or+1); 
G.addEdge(or, 1); 
} 
else 1lp = or; 
} 
if (i < M-1 && re[i+1] == '*') // 查看 下 一 个 字符 
. 
G.addEdge(1lp, i+1); 
G.addEdge(i+1, 1p); 
} 
if Cre[i] == '(' || re[i] == '*" || re[i] == ')') 
G.addEdge(i, i+1); 
} 
} 
public boolean recognizes(String txt) 
// NFA 是 否 能 够 识别 文本 txXt? (请 见 5.4.5.2 节 框 注 “ 使 用 NFA 模 拟 的 模式 匹配 ”) 
} 


802 该 构造 函数 根据 给 定 的 正则 表达 式 构 造 了 对 应 的 NFA 的 E- 转换 有 向 图 。 


命题 R。 构 造 和 长 度 为 M 的 正则 表达 式 相 对 应 的 NFA 所 需 的 时 间 和 空间 在 最 坏 情况 下 与 M 成 
正比 。 


证 明 。 对 于 长 度 为 M 的 正则 表达 式 中 的 每 个 字符 ， 最 多 会 添加 三 条 E- 转换 并 可 能 执行 一 到 两 
次 栈 操作 。 
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保存 左 括 0 
号 和 “或 ” (9 一 - 
运算 符 的 、、 
索引 的 栈 。 |。 
1 
A 
2 


[ee 
Le 
Wu 


Og 
1 
由 
， ©@, 
6 
©— 
9 五- 
册 se 
一 


10 


0)— 


ocxespooe esoeoo 


图 5.4.7 构造 正则 表达 式 ((A*B|AC)D) 所 对 应 的 NFA 
模式 匹配 的 经 典 用 例 GREP 的 代码 如 后 面 框 注 所 示 。 它 接受 一 个 正则 表达 式 为 参数 并 能 够 打印 
出 标准 输入 中 含有 属于 正则 表达 式 所 描述 的 语言 的 子 字符 串 的 所 有 行 。 这 个 程序 是 Unix 早期 实现 
中 的 一 项 特性 并 已 经 成 为 数 代 程序 员 不 可 缺少 的 工具 。 


有 E = 


% more tinyL.txt 


AC 
AD 
AAA 
public class GREP ABD 
{ ADD 
public static void main(String[] args) BCD 
ABCCBD 
String regexp = "(.*" + args[0] + ".*)"; BABAAA 
NFA nfa = new NFA(regexp); BABBAAA 
while (StdIn.hasNextLine()) 
{ % java GREP "(A*B|IAC)D" < tinyL. 
String txt = StdIn.hasNextLine(); CXt 
if (nfa.recognizes(txt)) ABD 
Stdout.print1lnCtxt) ; ABCCBD 
} % java GREP StdIn < GREP.java 
} while (StdIn.hasNextLine()) 


803 


2 
804 经 典 的 一 般 正 则 表达 式 模 式 匹配 (GREP)NFA 的 用 例 


String, txt = StdLin: 
hasNextLineO; 


图 答 终 


防 可 


空 
前 者 表示 一 个 空 集 ， 后 者 表示 一 个 空 字符 串 。 你 可 以 构造 一 个 只 有 一 个 元 素 的 集合 ， 而 显然 这 个 


(nu11) 和 € 有 什么 区 别 ? 


805 集合 不 是 空 集 (nu11 ) 。 


.4.1 


5.4.2 


5.4.3 
5.4.4 
5.4.5 


5.4.6 


5.4.7 


图 练习 
5 


给 出 能 够 描述 含有 以 下 字符 的 所 有 字符 串 的 正则 表达 式 : 

口 4 个 连续 的 A 

口 最 多 4 个 的 连续 的 A 

口 1 到 4 个 连续 的 A 

用 自然 语言 简略 的 描述 以 下 正则 表达 式 : 

[es 

b.A.*A | A 

c. .*ABBABBA.* 

d. .* A.*A.*A.*A.* 

一 个 使 用 M 个 或 运算 符 且 不 使 用 闭 包 的 正则 表达 式 最 多 能 够 描述 多 少 个 不 同 的 字符 串 ? ( 可 以 使 
用 连接 操作 和 括号 。 ) 

画 出 模式 (CCA1B)*|CD*|EFG)*)* 所 对 应 的 NFA。 

画 出 练习 5.4.4 的 NFA 的 E- 转 换 有 向 图 。 

对 于 输入 ABBACEFGEFGCAA B, 给 出 练习 5.4.4 的 NFA 中 每 次 匹配 转换 和 €- 转换 
之 后 可 达 的 状态 集合 。 

将 5$.4.6.4 节 框 注 “ 经 典 的 一 般 正 则 表达 式 模 式 匹 配 (GREP ) NFA 的 用 例 ” 中 的 GREP 修改 为 
GREPmatch， 将 模式 用 括号 包 庄 起 来 但 不 在 模式 两 端 加 上 “.*”。 这 样 程序 就 只 会 打出 属于 给 定 


5.4.8 


5.4.9 
5.4.10 


5.4.11 


5.4.12 
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正则 表达 式 所 描述 的 语言 的 输入 行 字符 串 。 给 出 以 下 命令 的 结果 。 

a.% java GREPmatch "(A|B)(CID)" < tinyL.txt 

b.% java GREPmatch "A(B|CO)*D" < tinyL.txt 

c.% java GREPmatch "(A*B|IACO)D" < tinyL.txt 

用 正则 表达 式 描 述 以 下 二 进 制 字符 串 的 集合 。 

a. 含有 至 少 3 个 连续 的 1 

b. 含有 子 字符 串 110 

c. 含有 子 字 符 串 1101100 

d. 不 含有 子 字符 串 110 806 
用 一 个 正则 表达 式 描 述 至 少 含有 两 个 0 但 不 含有 任何 连续 的 0 的 二 进 制 字符 串 。 

用 正则 表达 式 描述 以 下 二 进 制 字符 串 的 集合 。 

a. 至 少 含有 3 个 字符 ， 且 第 三 个 字符 为 0 

b. 字符 串 中 的 0 的 个 数 为 3 的 倍数 

c. 起 止 字符 相同 

d. 长 度 为 奇数 

e. 首 字母 为 0 且 长 度 为 奇数 ， 或 者 首 字母 为 1 且 长 度 为 偶数 

f. 长 度 在 1 到 3 之 间 

对 于 以 下 正则 表达 式 ， 计算 有 和 多少 个 长 度 正好 为 1000 的 二 进 制 字 符 串 和 它们 匹配 。 

& O00: | D1 

b. 0*101* 

GB CL | ‘OL 

为 以 下 应 用 写 出 Java 的 正则 表达 式 。 

a. 电话 号 人 码 ， 例 如 (609) 555-1234 

b. 社会 保险 号 ， 例 如 123-45-6789 

c. 日 期 ， 例 如 December 31, 1999 

d. 形 如 a.b.c.d 的 IP 地址 ， 其 中 每 个 字符 都 表示 着 一 个 可 能 是 1 位 、2 位 或 者 3 位 的 数字 ， 

例如 196.26.155.241 
e. 车 牌号 ， 前 4 个 字符 为 数字 ， 最 后 2 个 字符 为 大 写字 母 807 


图 提高 十 


5.4.13 


5.4.14 


有 难度 的 正则 表达 式 。 使 用 二 值 字母 表 的 正则 表达 式 描述 以 下 字符 串 的 集合 。 

a. 除 了 11 和 111 的 所 有 字符 串 

b. 奇数 位 数字 为 1 的 所 有 字符 串 

c. 至 少 含有 两 个 0 和 至 多 含有 一 个 1 的 所 有 字符 串 

d. 不 存在 连续 两 个 1 的 所 有 字符 串 

二 进 制 数 的 可 整除 性 。 使 用 正则 表达 式 描 述 以 下 二 进 制 字符 串 使 得 其 对 应 的 整数 能 够 满足 以 下 
条 件 。 

a. 被 2 整除 

b. 被 3 整除 
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5.4.15 


5.4.16 


c. 被 123 整除 

单 层 正 则 表达 式 。 构 造 一 个 Java 的 正则 表达 式 来 描述 所 有 二 值 字 母 表 的 合法 正则 表达 式 字符 串 
的 集合 , 字符 串 不 含有 徐 套 的 括号 。 例 如 ，(.*1)* 和 (1.*0)* 都 是 这 个 语言 中 的 字符 串 , 但 (1(0 
或 者 1)1)* 不 是 。 

多 向 “或 ”运算 。 为 NFA 实现 多 向 “或 ”运算 。 代 码 为 模式 (.*ABCCCID1E)F)*G) 生成 的 自动 
机 应 该 如 图 5.4.8 所 示 。 





图 5.4.8 ”模式 (.*ABCCCIDI1E)F)*G) 所 对 应 的 NFA 


通配符 。 为 NFA 添加 处 理 通 配 符 的 能 力 。 

至 少 重复 一 次 。 为 NFA 添加 处 理 闭 包 的 “+” 运 算 符 的 能 力 。 

指定 重复 次 数 。 为 NFA 添加 处 理 指 定 重 复 次 数 的 能 力 。 

范围 描述 符 。 为 NFA 添加 处 理 指 定 重复 范围 的 能 力 。 

补 集 。 为 NFA 添加 处 理 补 集 描述 符 的 能 力 。 

证 明 。 开 发 一 个 新 版 本 的 NFA， 使 它 能 够 打印 一 份 证 明 ， 指 出 给 定 字符 串 包含 在 NFA 能 够 识别 
的 语言 之 中 ( 即 终止 于 接受 状态 的 一 系列 状态 转换 ) 。 
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5.5 数据 压缩 


这 个 世界 充满 了 数据 ， 而 能 够 有 效 表达 数据 的 算法 在 现代 计算 机 基础 架构 中 有 着 重要 的 地 位 。 
压缩 数据 的 原因 主要 有 两 点 : 节省 保存 信息 所 需 的 空间 和 节省 传输 信息 所 需 的 时 间 。 尽 管 科技 在 发 
展 , 但 是 这 两 点 的 重要 性 并 没有 发 生变 化 ， 如 今 任何 需要 更 大 存储 空间 或 是 长 时 间 等 待 下 载 任务 完 
成 的 人 都 会 意识 到 数据 压缩 的 重要 性 。 

当 你 在 处 理 数字 图 像 、 声 音 、 电 影 和 其 他 各 种 数据 时 ， 就 已 经 在 与 数据 压缩 打交道 了 。 我 们 将 会 
学 习 的 算法 之 所 以 能 够 节省 空间 ， 是 因为 大 多 数 数据 文件 都 有 很 大 的 元 余 : 例如 ,文本 文件 中 有 些 字 
符 序列 的 出 现 频率 远 高 于 其 他 字符 串 ; 用 来 将 图 片 编码 的 位 图 文件 中 可 能 有 大 片 的 同 质 区 域 ; 保存 数 
字 图 像 、 电 影 、 声 音 等 其 他 类 似 信号 的 文件 都 含有 大 量 重复 的 模式 。 

我 们 将 会 讨论 广泛 应 用 的 一 种 初级 的 算法 和 两 种 高 级 的 算法 。 这 些 算法 的 压缩 效果 可 能 有 
所 不 同 ， 取 决 于 输入 的 特征 。 文 本 数据 一 般 都 能 节省 20% ~ 50% 的 空间 ， 某 些 情况 下 能 够 达到 
50% ~ 90%。 你 将 会 看 到 ， 任 何 数据 压缩 算法 的 效果 都 十 分 依赖 于 输入 的 特征 。 注 意 : 本 书 中 , 我 
们 在 提 到 性 能 的 时 候 一 般 指 的 都 是 时 间 ; 而 对 于 数据 压缩 ， 性 能 指 代 的 是 算法 的 压缩 率 ， 当 然 也 会 
考虑 压缩 的 用 时 。 

从 男 一 方面 来 说 ， 现 在 的 数据 压缩 技术 并 没有 以 前 那么 重要 了 ， 因 为 计算 机 的 存储 设备 的 成 本 已 
经 大 幅度 降低 ， 普 通用 户 拥有 的 存储 空间 比 以 前 要 多 得 多 。 但 是 ， 现 在 数据 压缩 技术 也 比 任何 时 候 都 
更 重要 ， 因 为 现在 存储 的 数据 更 多 了 ， 因 此 数据 压缩 能 够 节省 的 空间 也 就 更 大 了 。 事 实 上 ， 随 着 互联 
网 的 出 现 ， 数 据 压缩 得 到 了 更 加 广泛 的 应 用 ， 因 为 它 是 减少 传输 大 量 数 据 所 需 时 间 的 最 经 济 的 办 法 。 

数据 压缩 有 着 丰富 的 历史 积淀 (我们 只 会 作 简要 的 介绍 ) ， 而 它 在 未 来 世界 中 扮演 的 角色 将 会 
更 加 重要 。 所 有 人 都 能 从 数据 压缩 算法 的 学 习 中 得 到 益处 ， 因 为 这 些 算法 都 非常 经 典 、 优 雅 、 有 趣 
而 高 效 。 


5.5.1 游戏 规则 

现代 计算 机 系统 中 处 理 的 所 有 类 型 的 数据 都 有 一 个 共同 点 : 它们 最 终 都 是 用 二 进 制 表 示 的 。 我 们 
可 以 将 它们 都 看 成 一 串 比 特 (或 者 字 节 ) 的 序列 。 简 单 起 见 ， 本 节 中 使 用 比特 流 这 个 术语 表示 比特 的 
序列 ， 用 字 节 流 这 个 术语 表示 可 以 看 作 固定 大 小 的 字 节 序列 的 比特 序列 。 比 特 流 或 字 节 流 可 以 是 保存 
在 计算 机 中 的 文件 ， 也 可 以 是 互联 网 上 传输 的 一 条 消息 。 
基础 模型 

数据 压缩 的 基础 模型 非常 简单 (请 见 图 5.5.1 ) 。 它 由 两 个 主要 的 部 分 组 成 ， 两 者 都 是 一 个 能 
够 读 写 比特 流 的 黑 盒子 : 

口 压缩 爹 ， 能 够 将 一 个 比特 流 B 转化 为 压缩 后 的 版 本 C(B); 

口 展开 盒 ， 能 够 将 C(B) 转化 回 B。 

如 果 使 用 |B| 表示 比特 流 中 比特 的 数量 的 话 ， 我 们 感 兴趣 的 是 将 |CCGB)VWIB| 最 小 化 ， 这 个 值 被 称 
为 压缩 率 。 





en 和 
比特 流 B 压缩 后 的 版 本 C(B) ”““。  。 原 比 特 流 B 





图 5.5.1 数据 压缩 的 基础 模型 
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这 种 模型 叫做 无 损 压 缩 模型 一 一 保证 不 丢失 任何 信息 ， 即 压缩 和 展开 之 后 的 比特 流 必须 和 原始 
的 比特 流 完全 相同 。 许 多 种 类 型 的 文件 都 会 用 到 无 损 压 缩 ， 例 如 数值 数据 或 者 可 执行 的 代码 。 对 于 
某 些 类 型 的 文件 ( 例如 图 像 、 视 频 和 音乐 ) ， 有 损 的 压缩 方法 也 是 可 以 接受 的 ， 此 时 解码 器 所 产生 
的 输出 只 是 与 原 输入 文件 近似 。 有 损 压 缩 算法 的 评价 标准 不 仅 是 压缩 率 ， 还 包括 主观 的 质量 感受 。 
在 本 书 中 不 会 讨论 有 损 压 缩 算 法 。 


5.5.2 ” 读 写 二 进 制 数据 

完整 描述 计算 机 上 信息 的 编码 方式 取决 于 系统 ， 这 超出 了 本 书 的 讨论 范围 。 但 我 们 可 以 通过 几 
个 基本 的 假设 和 两 个 简单 的 API 来 将 实现 与 这 些 细节 隔离 开 来 。BinaryStdIn 和 BinaryStdOut 这 
两 份 API 来 自 于 我 们 一 直 在 使 用 的 StdIn 和 Stdout， 但 它们 的 作用 是 读 取 和 写 人 比特 ， 而 StdIn 和 
StdOut 面向 的 是 由 Unicode 编码 的 字符 流 。Stdout 上 的 一 个 int 值 是 一 串 字 符 ( 它 的 十 进 制 表示 ) ; 
BinaryStdOut 上 的 一 个 int 值 是 一 串 比特 ( 它 的 二 进 制 表 示 ) 。 
5.5.2.1 二进制 的 输入 输出 

今天 ， 大 多 数 系统 的 输入 输出 系统 ， 包 括 Java， 都 是 基于 8 位 的 字 节 流 ， 因 此 我 们 的 API 也 许 应 
该 读 写 字 节 流 ， 以 和 原始 数据 类 型 内 部 表示 的 输入 输出 格式 相 匹配 ,将 8 位 的 char 编码 为 1 个 字 节 ， 
16 位 的 short 编码 为 2 个 字 节 ，32 位 的 int 编码 为 4 个 字 节 ， 等 等 。 因 为 比特 流 是 数据 压缩 的 主要 抽 
象 层次 ， 这 就 需要 更 进一步 ， 人 允许 用 例 读 写 单个 的 比特 以 及 原始 类 型 的 数据 。 我 们 的 目标 是 尽量 减少 
例 需 要 进行 的 类 型 转换 并 按照 操作 系统 的 要 求 表示 数据 。 表 5.5.1 中 的 API 从 标准 输入 中 读 取 比特 流 。 


表 5.5.1 从 标准 输入 读 取 比特 流 的 静态 方法 的 API 
public class BinaryStdIn 


boolean readBoolean() 读 取 1 位 数据 并 返回 一 个 boolean 值 
char readChar() 读 取 8 位 数据 并 返回 一 个 char 值 
char readCharCint r) 读 取 r( 1~16 ) 位 数据 并 返回 一 个 char 值 
[适用 于 byte (8 位 ) 、short (16 位 ) 、int (32 位 ) 以 及 1ong 和 double (64 位 ) 的 类 似 方法 ] 
boolean isEmptyO) 比特 流 是 否 为 空 
void close() 关闭 比特 流 


和 StdIn 明显 不 同 的 是 ， 这 份 抽象 API 的 一 个 关键 特性 在 于 标准 输入 中 的 数据 并 不 一 定 
是 与 字 节 边界 对 齐 的 。 如 果 输 入 流 只 含有 一 个 字 节 ， 用 例 可 以 一 个 比特 一 个 比特 地 调用 8 次 
readBoolean() 方法 读 取 它 。 虽 然 closeQ 〇 方法 并 不 十 分 重要 ， 但 为 了 能 够 终止 输入 ， 用 例 应 该 
使 用 close(0) 方法 表示 不 会 再 读 取 任何 数据 。 和 StdIn 与 Std0ut 一 样 ， 使 用 表 5.5.2 中 的 补充 
API 来 向 标准 输出 写 入 比特 流 。 


表 5.5.2 向 标准 输出 中 写 入 比特 流 的 静态 方法 的 API 


public class BinaryStdOut 


void write(boolean b) 写 入 指定 的 比特 

void write(char c) : 写 入 指定 的 8 位 字符 

void write(char c, int r) 写 入 指定 字符 的 低 r (1~16 ) 位 
[适用 于 byte (8 位 ) 、short (16 位 ) 、int (32 位 ) 以 及 1ong 和 double (64 位 ) 的 类 似 方法 ] 

void closeO) 关闭 比特 流 
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对 于 输出 ，close() 方法 就 很 重要 了 : 用 例 必须 使 用 close(0) 方法 保证 之 前 调用 write() 方 
法 处 理 的 所 有 数据 都 写 人 比特 流 ， 比特 流 的 最 后 一 个 字 节 必须 用 0 补 齐 以 保证 和 文件 系统 的 兼容 性 。 
StdIn 与 StdOut 有 In 与 Out 这 两 份 API 与 之 关联 ， 这 里 也 通过 BinaryIn 和 BinaryOut 直接 使 
用 二 进 制 编码 的 文件 。 
5.5.2.2 举例 

以 下 是 一 个 简单 的 示例 ， 假 设 你 用 一 个 数据 结构 将 日 期 表示 为 3 个 int 值 (月 、 日 、 
年 ) 。 使 用 Stdout 将 这 些 值 以 12/31/1999 的 格式 输出 需要 10 个 字符 ， 也 就 是 80 位 。 如 果 用 
BinaryStdOut 直接 输出 这 些 值 则 需要 96 位 (每 个 int 值 32 位 ) ; 如 果 用 byte 值 来 表示 月 和 日 ， 
用 short 值 表示 年 ， 输 出 将 只 有 32 位 。 如 果 使 用 BinaryStd0ut， 可 以 只 用 4 位 、5 位 和 12 位 的 
3 个 域 , 输出 总 共 21 位， 请 见 图 5.5.2 ( 实际 上 是 24 位 ， 因 为 文件 必须 是 完整 的 8 位 字 节 ， 因 此 
close() 方法 会 在 末尾 添加 三 个 0 位 。) 注意 : 这 是 最 粗糙 的 数据 压缩 方式 。 


字符 流 (StdOut) 

Stdout.printCmonth + "/" + day + "/" + year); 

onl A vi a Me WM 玉 8g0 位 
3 个 int 值 (BinaryStdOut) 8 位 ASCII 码 表示 的 "9" 


BinaryStdOut.write(month); 
BinaryStdOut .write(day); 








BinaryStdOut .write(year); a 
000000000000000000000000000011000000000000000000000000000001111100000000000000000000011111001111 

12 2 1999 96 位 

2 个 char 值 和 1 个 short 值 (BinaryStdOut) 一 个 4 位 、 一 个 5 位 和 一 个 12 位 的 3 个 域 (BinaryStdOut) 
BinaryStdOut.write((char) month); BinaryStdOut.write(month, 4); 
BinaryStdOut.write((char) day); BinaryStdOut.write(day, 5); 
BinaryStdOut.write((short) year); BinaryStdOut.write(year, 12); 
00001100000111110000011111001111 110011111011111001111 
0 Me 本 Sa 
区 5 本 21 位 (关闭 时 会 为 了 对 齐 补充 3 位 ) 


图 5.5.2 ”向 标准 输出 中 写 入 一 个 日 期 的 4 种 方法 


5.5.2.3 二进制 转 储 
在 调试 的 时 候 , 我 们 应 该 如 何 检查 比特 流 或 者 字 节 流 的 内 容 呢 ? 早期 的 程序 员 面 临 着 这 个 问题 ， 

因为 当时 寻找 bug 的 唯一 方式 就 是 检查 内 存 中 的 每 个 比特 。 转 储 ( dump ) 这 个 词 从 计算 机 的 早期 一 
直 沿 用 下 来 ， 表 示 的 是 比特 流 的 一 种 可 供 人 类 阅读 的 形式 。 如 果 你 试图 用 一 个 编辑 器 来 打开 一 个 二 
进 制 文 件 , 或 者 用 文本 方式 察看 一 个 二 进 制 文件 的 内 容 ( 或 者 运行 一 个 使 用 BinaryStdout 的 程序 ) ， 
那 会 看 到 一 团 乱 码 ， 内 容 取决 于 使 用 的 系统 。BinaryStdIn 可 以 避 开 对 系统 的 依赖 性 ， 人 允许 我 们 编 
写 自己 的 程序 来 将 比特 流转 化 为 标准 工具 能 够 处 理 的 内 容 。 例 如 ， 下 页 框 注 所 示 的 程序 BinaryDump 
调用 了 BinaryStdIn， 将 标准 输入 中 的 比特 按照 0 和 1 的 形式 打印 出 来 。 在 处 理 小 规模 输入 时 这 个 
程序 是 一 个 很 有 用 的 调试 工具 。 类 似 的 工具 HexDump 可 以 将 数据 组 织 成 8 位 的 字 节 并 将 它 打印 为 各 
表示 4 位 的 两 个 十 六 进 制 数 。 用 例 PictureDump 可 以 用 Picture 对 象 表示 上 比特， 其 中 白色 像素 表示 
0， 黑 色 像 素 表 示 1。 你 可 以 从 本 书 的 网 站 上 下 载 BinaryDump 、HexDump 和 PictureDump， 请 见 图 
5.3.3。 我 们 一 般 会 用 管道 和 重 定向 等 方式 在 命令 行 处 理 二 进 制 文件 ， 将 编码 器 的 输出 通过 管道 传递 
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给 BinaryDump、HexDump 或 者 PictureDump， 或 者 将 它 重 定向 到 一 个 文件 之 中 。 


public class BinaryDump 


{ 
public static void main(String[] args) 
{ 
int width = Integer.parseInt(args[0]); 
int cht; 
for (cnt = 0; !BinaryStdIn.isEmptyO); cnt++) 
{ 
if (width == 0) continue; 
if (cnt != 0 && cnt % width == 0) 
StdOut.print1nO; 
if (BinaryStdIn.readBoolean()) 
StdOut.print("1"); 
else StdOut.print("0"); 
二 
Stdout .print1n(0) ; 
Stdout .printlnCcnt + " bits"); 
} 
} 
将 比特 流 打 印 在 标准 输出 上 (字符 形式 ) 
标准 字符 流 用 十 六 进 制 数 字 表 示 的 比特 流 
% more abra.txt % java HexDump 4 < abra.txt 
ABRACADABRA! 41 42 52 41 
43 41 44 41 
用 0 和 1 表示 的 比特 流 a 
% java BinaryDump 16 < abra.txt 
0100000101000010 用 Picture 对 象 中 的 像素 表示 的 比特 流 
0101001001000001 下 D 16 6 b 
0100001101000001 % java PictureDump < abra.txt 
0100010001000001 上 放大 的 16x6 
0100001001010010 像素 图 像 
0100000100100001 
96 位 96 位 
814 图 5.5.3 ”查看 比特 流 的 4 种 方法 


5.5.2.4 ASCII 编码 

当 你 使 用 HexDump 查看 一 个 含有 
ASCII 编码 的 字符 的 比特 流 的 内 容 时 ， 最 
好 参考 图 5.5.4。 对 于 给 定 的 两 个 十 六 进 制 
数字 ， 用 第 一 个 数字 表示 行 、 第 二 个 数字 
表示 列 即 可 找到 它 所 表示 的 字符 。 例 如 ， 
3 表示 “1” ,4A 表示 J 等 等 。 :这 
张 表 适用 于 7 位 ASCI 码 ， 因 此 第 一 个 
十 六 进 制 数字 必须 是 小 于 等 于 7 的 。 以 0 
或 者 1 开头 的 数 (以 及 20 和 7F ) 对 应 的 
都 是 无 法 打印 出 来 的 控制 字符 。 许 多 控制 图 5.5.4 ”十 六 进 制 编码 和 ASCII 字符 的 转换 表 
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字符 都 是 为 了 控制 打字 机 时 代 的 物理 设备 而 遗留 下 来 的 产物 。 我 们 在 这 张 表 中 突出 了 一 些 你 可 能 在 
转 储 中 已 经 见 过 的 字符 。 例 如 ，SP 是 空格 符 ，NUL 是 空 字符 ，LF 是 换行 符 ，CR 是 回 车 。 
总 之 ， 在 处 理 数据 压缩 问题 时 ， 除 了 标准 输入 输出 之 外 还 要 能 够 处 理 二 进 制 编码 的 数据 。 
BinaryStdIn 和 BinaryStdOut 提供 了 我 们 所 需要 的 方法 。 它 们 能 够 在 用 例 中 区 分 为 文件 存储 和 数 
据 传输 而 输出 的 信息 〈 供 其 他 程序 使 用 ) 和 为 打印 而 输出 的 信息 〈 供 人 类 阅读 ) 。 815 


5.5.3 局限 
为 了 更 好 地 理解 数据 压缩 算法 ， 你 需要 了 解 它们 的 一 些 局 限 性 。 研 究 人 员 已 经 为 此 打下 了 完整 而 
重要 的 理论 基础 ， 本 节 的 最 后 会 简要 讨论 ， 但 现在 我 们 先 来 探讨 几 个 方便 入 门 的 结论 。 
5.5.3.1 通用 数据 压缩 
在 已 经 学 习 了 许多 重要 问题 的 算法 之 后 ， 你 可 能 会 认为 我 们 的 目标 Hs 
是 通用 性 的 数据 压缩 算法 ， 即 一 个 能 够 缩小 任意 比特 流 的 算法 。 但 与 之 a 
相反 ， 我 们 定 下 的 目标 更 加 朴素 ， 因 为 通用 性 的 数据 压缩 是 不 可 能 存在 
也 交 
中 
| 


的 ， 请 见 图 5.5.5。 


命题 S。 不 存在 能 够 压缩 任意 比特 流 的 算法 。 


证 明 。 我 们 来 看 两 种 有 见地 的 证 明 。 第 一 种 采用 的 是 反 证 法 : 假设 
存在 一 个 能 够 压缩 任意 比特 流 的 算法 ， 那 么 也 就 可 以 用 它 压 缩 它 自 
己 的 输出 以 得 到 一 段 更 短 的 比特 流 ， 循 环 往复 直到 比特 流 的 长 度 为 
01 能 够 将 任意 比特 流 的 长 度 压缩 为 0 显然 是 芒 雇 的 ， 因 此 存在 能 
够 压缩 任意 比特 流 的 算法 的 假设 也 是 错误 的 。 

第 二 种 证 明 方法 基于 统计 : 假设 有 一 种 算法 能 够 对 所 有 长 度 为 1000 
位 的 比特 流 进行 无 损 压 缩 ， 那 么 每 一 种 能 够 被 压缩 的 比特 流 都 对 应 
着 一 段 较 短 且 不 同 的 比特 流 。 但 长 度 小 于 1000 位 的 比特 流 一 共 只 
有 1+2+4+…+2”+2”=2"-] 种 ， 而 长 度 为 1000 位 的 比特 流 一 共有 
2 种， 因此 该 算法 不 可 能 压缩 所 有 长 度 为 1000 的 比特 流 。 如 果 我 
们 声明 更 多 的 条 件 ， 那 么 这 段 证 明 会 更 有 说 服 力 。 例 如 ， 继 续 假 设 
算法 的 目标 是 取得 大 于 50% 的 压缩 率 ， 那 么 显然 所 有 长 度 为 1000 
位 的 比特 流 中 的 压缩 成 功率 将 只 有 1/2™ ! 


m -Oc 四 


换 句 话 说， 对 于 任意 数据 压缩 算法 ， 将 长 度 为 1000 位 的 随机 比特 
流 压缩 为 一 半 的 概率 最 多 为 /2”。 当 遇 到 一 种 新 的 无 损 压 缩 算法 时 ， 图 5.5.5 是否 存 在 通用 
我 们 可 以 肯定 它 是 无 法 大 幅度 压缩 随机 比特 流 的 。 抛 弃 对 压缩 随机 比特 数据 压缩 
流 的 幻想 是 理解 数据 压缩 的 起 点 。 虽 然 我 们 会 经 常 处 理 数 百 万 至 数 十 亿 [816| 
比特 长 度 的 字符 串 ， 但 处 理 过 的 数据 总 量 只 是 这 种 字符 串 总 数 的 九 牛 一 毛 ， 所 以 不 必 为 这 个 理论 结 
果 而 诅 丧 。 事 实 上 ， 经 常 被 处 理 的 比特 字符 串 都 是 非常 有 规律 的 ， 在 压缩 时 可 以 利用 这 一 点 。 
5.5.3.2 不 可 判定 性 
请 见 图 5.5.6， 它 是 一 条 上 百 万 位 的 字符 串 。 这 个 字符 串 看 起 来 很 随机 ， 所 以 你 不 太 可 能 为 它 
找到 一 个 无 损 压 缩 算法 。 但 有 一 种 方法 只 用 几 千 个 比特 就 可 以 表示 这 个 字符 串 ， 因 为 它 是 通过 右 下 
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框 注 中 的 程序 生成 的 。 ( 这 个 程序 是 伪 随 机 数 生成 器 的 一 个 示例 ， 和 Java.Math.random() 方法 一 
样 。 ) 通过 用 ASCII 文本 编写 生成 程序 来 进行 压缩 、 通 过 读 取 并 运行 该 程序 来 展开 被 压缩 字符 串 的 
压缩 算法 能 够 取得 0.3% 的 压缩 率 ， 这 是 非常 难以 超越 的 。 (我 们 还 能 够 降低 这 个 比例 ， 只 要 该 程 
序 再 输出 更 多 比特 即 可 。 ) 压缩 这 个 文件 最 好 的 方法 就 是 找 出 创造 这 些 数据 的 程序 。 这 个 例子 并 不 
像 它 看 起 来 那么 深奥 : 当 你 在 压缩 一 段 视频 或 是 一 本 通过 扫描 而 数字 化 的 旧书 或 是 互联 网 上 的 无 数 
其 他 类 型 的 文件 时 ， 你 都 在 寻找 创造 这 个 文件 的 程序 。 在 意识 到 我 们 处 理 的 大 部 分 数据 都 是 由 某 种 
程序 产生 的 之 后 , 我 们 才能 发 现 计 算 理论 中 的 一 些 深刻 的 问题 并 理解 数据 压缩 所 面临 的 挑战 。 例如， 
可 以 证 明 最 优 数 据 压缩 ( 找到 能 够 产生 给 定 字符 串 的 最 短程 序 ) 是 一 个 不 可 判定 的 问题 : 我 们 不 但 
不 可 能 找到 能 够 压缩 任意 比特 流 的 算法 ， 也 不 可 能 找到 最 佳 的 压缩 算法 ! 


% java RandomBits | java PictureDump 2000 500 





1 000 000 位 
图 5.5.6 一 个 难以 压缩 的 文件 : 100 万 〈 擅 ) 随机 比特 


这 些 局 限 性 所 带 来 的 实际 影响 要 求 无 损 压 缩 算 法 必须 尽量 利用 被 压缩 的 数据 流 中 的 已 知 结构 。 
我 们 将 会 依次 讨论 4 种 方法 来 处 理 具备 以 下 结构 特点 的 数据 : 

口 小 规模 的 字母 表 ; 

口 较 长 的 连续 相同 的 位 或 字符 ; 

口 频繁 使 用 的 字符 ; 

口 较 长 的 连续 重复 的 位 或 字符 。 


如 果 你 已 知 给 定 的 比特 流 中 具有 以 上 
一 种 或 多 种 特点 ， 那 么 就 能 够 通过 将 要 学 
习 的 4 种 方法 将 它 压缩 ;如果 不 知道 给 定 
比特 流 具 有 的 特点 ， 也 可 以 用 它们 碰 磁 运 
气 ， 因 为 你 的 数据 结构 也 许 并 不 是 那么 明 
显 ， 而 这 些 方法 的 适用 性 很 广 。 你 将 会 看 
到 ， 每 种 方法 都 有 多 个 参数 和 变种 ， 并 且 
可 以 为 特定 的 比特 流 调 优 以 达到 最 佳 的 压 
缩 率 。 第 一 个 和 最 后 一 个 示例 是 为 了 帮助 
你 了 解数 据 的 结构 ， 接 下 来 我 们 会 学 习 一 
个 方法 来 压缩 示例 数据 。 


5.5.4 ”热身 运动 : 基因 组 


public class RandomBits 
{ 
public static void main(String[] args) 
dat we LILLE; 
for (Cint i = 0; i < 1000000; i++) 
{ 
X= XX II4159 + 218281 
BinaryStdOut.write(x > 0); 
} 
BinaryStdOut.close(); 
} 
上 


“被 压缩 后 的 ” 一段 上 百 万 比特 的 数据 流 


在 讨论 更 加 复杂 的 数据 压缩 问题 之 前 ， 我 们 先 来 处 理 一 个 初级 的 ( 但 也 十 分 重要 的 ) 数据 压缩 
任务 。 我 们 在 这 个 例子 中 会 介绍 一 些 约定 ,它们 将 适用 于 本 节 中 的 所 有 实现 。 
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5.5.4.1 基因 数据 
作为 数据 压缩 的 第 一 个 示例 ， 请 看 下 面 这 个 字符 串 : 


ATAGATGCATAGCGCATAGCTAGATGTGCTAGCAT 


如 果 使 用 标准 的 ASCI 编码 ( 每 个 字 public static void compress() 
符 1 个 字 节 ，8 位 ) ， 这 个 字符 串 的 比特 流 1 


长 度 为 8x35=280 位 。 这 种 字符 串 在 现代 生 Alphabet DNA = new Alphabet ("ACTG"); 
Stri = Bi StdIn.readStri ; 
物 学 中 非常 重要 ,因为 生物 学 家 用 字母 A\C、 Ne ond en 
T 和 G 来 表示 生物 体 的 DNA 中 的 四 种 碱 基 。 BinaryStdOut .write(N); 
i A ep for Cint i =,0; 1 < N; Tr+) 
基因 就 是 一 条 碱 基 的 序列 。 科学 家 认识 到 理 { // 将 字符 用 双 位 编码 代码 表示 
解 基因 的 性 质 是 理解 它们 在 活体 器 官 中 如 何 int d = DNA.toIndex(s.charAt(i)); 
Bi StdOut .wri d, DNA.] 和 
作用 的 关键 ， 包 括 生命 、 死 亡 和 疾病 。 许 多 er he 
生物 的 基因 现在 都 是 已 知 的 ， 而 一 些 科学 家 } BinaryStdOut. closeQO); 
正在 编写 程序 来 分 析 这 些 序列 的 结构 。 
5.5.4.2 ” 双 位 编码 压缩 基因 数据 的 压缩 方法 


基因 的 一 个 简单 性 质 是 ， 它 由 4 种 不 同 
的 字符 组 成 。 这 些 字 符 可 以 用 两 个 比特 编码 ， 


如 右 侧 的 compress() 方法 所 示 。 尽 管 我 们 public static void expand() 

知道 输入 流 是 由 字符 组 成 的 ,但 是 仍然 可 以 Alphabet DNA = new Alphabet("ACTG"); 
使 用 BinaryStdIn 来 读 取 这 些 输入 以 和 标 nt W.= DNAWIgRO, 

准 的 数据 压缩 模型 保持 一 臻 (从 比特 流 到 比 eh fe 

特 流 ) 。 我 们 在 压缩 后 的 文件 中 记录 了 被 编 { 。 // 读 取 2 比特 ， 写 入 一 个 字符 

码 的 字符 数量 ， 这 样 即使 最 后 一 位 并 没有 和 te hie mi en eta 
字 节 对 齐 ， 解码 也 能 够 顺利 进行 。 因 为 它 能 

够 将 一 个 8 位 的 字符 转换 为 一 个 双 位 编码 ， A 

且 只 在 最 后 附加 32 位 用 于 记录 总 长 度 ， 上 

方程 序 的 压缩 率 会 随 着 压缩 字符 的 增多 越 来 基因 数据 的 展开 方法 

越 接近 25%。 


5.5.4.3” 双 位 编码 展开 

右边 框 注 中 的 expandQ 〇 方法 能 够 将 这 个 compress 0) 方法 产生 的 比特 流 展开 。 和 压缩 时 一 样 ， 
该 方法 会 按照 数据 压缩 的 基础 模型 读 取 一 个 比特 流 并 输出 一 个 比特 流 。 它 输出 的 比特 流 和 原始 输入 
相同 。 

相同 的 方法 也 适用 于 其 他 字母 表 大 小 固定 的 字符 串 , 但 我 们 将 它 的 推广 留 作 ( 简单 的 ) 习题 (请 
见 练习 5.5.25 ) 。 

这 些 方法 和 数据 压缩 的 基础 模型 并 不 完全 一 致 ， 因 为 编码 后 的 比特 流 中 并 没有 包含 将 其 解码 所 
需 的 所 有 信息 。 由 A、C、T、G 4 个 字母 组 成 的 字母 表 只 是 两 个 方法 之 间 的 约定 。 这 种 约定 在 基因 
组 这 种 应 用 中 是 合理 的 ， 因 为 这 些 编码 会 被 大 量 复 用 。 但 在 其 他 的 场景 中 ， 字 母 表 也 可 能 需要 包含 
在 被 编码 的 信息 中 (请 见 练习 5.5.25 ) 。 在 比较 数据 压缩 的 方法 时 我 们 通常 都 要 计 人 这 些 成 本 。 

在 基因 组 学 的 早期 , 分 析 一 段 染 色 体 序列 是 一 个 漫长 而 艰苦 的 任务 ， 因 此 已 知 的 序列 都 相对 较 短 ， 
科学 家 可 以 用 标准 的 ASCII 编码 来 存储 和 交换 它们 。 现 在 ， 这 个 实验 流程 的 效率 已 经 大 大 提高 了 ， 已 知 
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的 基因 组 的 数量 非常 多 而 且 都 很 长 (人 类 的 基因 组 长 度 超过 10" 比特 ) 。 用 这 些 简单 的 方法 就 能 节省 
75% 的 空间 已 经 非常 可 观 了 。 还 有 继续 压缩 的 余地 吗 ? 这 是 一 个 非常 有 人 因为 这 是 一 个 科学 问 
题 : 继续 压缩 的 潜力 意味 着 这 些 数据 中 还 存在 着 某 种 结构 ， 而 现代 基因 组 学 的 重点 就 是 希望 从 基因 数据 
中 发 现 更 多 的 结构 。 我 们 将 会 学 习 的 一 些 标准 数据 压缩 方法 对 于 《经 过 双 位 编码 压缩 后 的 ) 基因 数据 并 
没有 什么 效果 ， 和 处 理 随 机 数据 类 似 。 


小 型 测试 用 例 (264 位 ) 


% more genomeTiny.txt 
ATAGATGCATAGCGCATAGCTAGATGTGCTAGC 


java BinaryDump 64 < genomeTiny ,txt 
0100000101010100010000010100011101000001010101000100011101000011 
0100000101010100010000010100011101000011010001110100001101000001 
0101010001000001010001110100001101010100010000010100011101000001 
0101010001000111010101000100011101000011010101000100000101000111 
01000011 

264 位 


% java Genome - < genomeTiny .txt 
?? + 一 在 标准 输出 上 无 法 看 到 比特 流 


% java Genome - < genomeTiny.txt | java BinaryDump 64 
0000000000000000000000000010000100100011001011010010001101110100 
1000110110001100101110110110001101000000 

104 位 


% java Genome - < genomeTiny.txt | java HexDump 8 
00 00 00 21 23 2d 23 74 

8d 8c bb 63 40 

104 位 


% java Genome - < genomeTiny.txt > genomeTiny.2bit 
% java Genome + < genomeTiny.2bit 
ATAGATGCATAGCGCATAGCTAGATGTGCTAGC 


% java Genome - < genomeTiny.txt | ava Genone a 
ATAGATGCATAGCGCATAGCTAGATGTGCTAGC 


一 个 真实 的 病 pile (50 000 位 ) 





% java Genome - < genomeVirus.txt | java PictureDump 512 25 
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图 5.5.7 使 用 双 位 编码 压缩 和 展开 基因 组 序列 


我 们 将 compress() 和 expand() 作为 
静态 方法 和 一 个 简单 的 用 例 打包 在 一 个 相同 
的 类 中 ， 如 框 注 代 码 所 示 。 为 了 测试 你 对 
游戏 规则 的 理解 和 我 们 用 于 数据 压缩 的 基 
本 工具 ， 请 研究 图 5.5.7 中 的 各 种 命令 。 它 
们 调用 了 Genome.compress() 和 Genome. 
expand() 来 处 理 样本 数据 ( 以 及 输出 ) 。 
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public class Genome 


{ 


public static void compress() 


”// 请 见 正文 


public static void expand() 
// 请 见 正文 


public static void main(String[] args) 
{ 

if (args[0] .equals("-")) compress(); 
if (args[0] .equals("+")) expand(); 


5.5.5 ”游程 编码 } 
比特 流 中 最 简单 的 元 余 形式 就 是 一 长 。 “1 

串 重 复 的 比特 。 下 面 我 们 学 习 一 种 经 典 的 游 

程 编码 (Run-Length Encoding ) 来 利用 这 种 

宛 余 压 缩 数 据 。 例 如 ， 请 看 下 面 这 条 40 位 长 的 字符 串 : 


0000000000000001111111000000011111111111 


数据 压缩 方法 的 打包 方式 


该 字符 串 含有 15 个 0, 然 后 是 7 个 1， 然后 是 7 个 0, 然 后 是 11 个 1， 因 此 我 们 可 以 将 该 比特 字符 
串 编码 为 5，7，7，11。 所 有 的 比特 字符 串 都 是 由 交替 出 现 的 0 和 1 组 成 的 ， 因 此 我 们 只 需要 将 游程 的 
长 度 编码 即 可 。 在 这 个 例子 中 ， 如 果 用 4 位 表示 长 度 并 以 连续 的 0 作为 开头 ,那么 就 可 以 得 到 一 个 16 位 





长 的 字符 串 (15=1111,7=0111, 7=0111,，11=1011 ) : 


1111011101111011 

压缩 率 为 16/40=40%。 为 了 将 这 里 的 描述 转化 成 一 种 
有 效 的 数据 压缩 方法 ， 我 们 需要 解决 以 下 几 个 问题 。 

口 应 该 使 用 多 少 比 特 来 记录 游程 的 长 度 ? 

口 当 某 个 游程 的 长 度 超过 了 能 够 记录 的 最 大 长 度 时 


% java BinaryDump 32 < q32x48.bin 
00000000000000000000000000000000 32 
0000000000000000000000000000! 32 
00000000000000011111110000000000 35 了 30 
00000000000011111111111111100000 12 15 
00000000001111000011111111100000 10 


00000011110000000000001111100000 
00000111100000000000001111100000 


怎 么 办 人 00001111000000000000001111100000 
00021110000009000000001111100009 

sl pe Fs \ 局 1 
口 当 游 程 的 长 度 所 需 的 比特 数 小 于 记录 长 度 的 比特 9009330000000000000001111100009 
和 » 5 00111110000000000000001111100000 
数 日 二 访 公 办 4 00111110000000000000001111100000 


我 们 感 兴趣 的 主要 是 含有 的 短 游程 相对 较 少 的 长 比 
特 流 ， 因 此 这 些 问 题 的 回答 是 : 
口 游程 长 度 应 该 在 0 到 255 之 间 ， 使 用 8 位 编码 ; 
口 在 需要 的 情况 下 使 用 长 度 为 0 的 游程 来 保证 所 有 
游程 的 长 度 均 小 于 256; 
口 我 们 也 会 将 较 短 的 游程 编码 ， 虽 然 这 样 做 有 可 能 
使 输出 变 得 更 长 。 
这 些 决定 非常 容易 实现 而 且 对 于 实际 应 用 中 经 常 出 
现 的 几 种 比特 流 十 分 有 效 。 它 们 不 适用 于 含有 大 量 短 游 
程 的 输入 一 一 只 有 在 游程 的 长 度 大 于 将 它们 用 二 进 制 表 
示 所 需 的 长 度 时 才能 节省 空间 。 


00111110000000000000001111100000 
00111110000000000000001111100000 
00111110000000000000001111100000 
00111110000000000000001111100000 
00111110000000000000001111100000 
00111111000000000000001111100000 
00111111000000000000001111100000 
00011111100000000000001111100000 
00011111100000000000001111100000 
00001111110000000000001111100000 
00001111111000000000001111100000 
00000111111100000000001111100000 
00000011111111000000011111100000 
00000001111111111111111111100000 
00000000011111111111001111100000 
00000000000011111000001111100000 
00000000000000000000001111100000 


cppppRPPPPPPPPPPAPEPPE 


PoP NA NOPNGUAANNNnnnnnr NNoau 
wm mmwmwmwmwmwmwmwwmwmwmwmwmwmwmwwmwmwwmwmwmwmwwmwae 


DUNONMAAWUWUNNNNNNNNINNNWAAANND 


pa 
NmwmmwmmwmwmwmwmwmwmPeoNwvvoommmamwmwwmwmwmwmwmwmwmwm 训 mh 上 和 山手 性 


22 


0000000t 0001111100000 22 
00000000000000000000001111100000 22 
00000000000000000000001111100000 22 
00000000000000000000001111100000 22 
00000000000000000000001111100000 22 
00000000000000000000001111100000 22 
00000000000000000000001111100000 22 
00000000000000000000001111100000 22 
00000000000000000000001111100000 22 
00000000000000000000001111100000 22 
00000000000000000000011111110000 21 
00000000000000000011111111111100 3 
32 
32 


5.5.5.1 位 图 


作为 游程 编码 效果 的 一 个 示例 ， 这 里 探讨 位 图 。 它 


0000000000000000011111J111111110 
000000000000000000000 000000 
0000000000000000000000000t 000 
1536 位 

17 0s 


- 幅 典 型 的 位 图 ， 每 行 的 游程 
编码 如 右 所 示 


图 5.5.8 


mwmwmwwmmwmwmwmwmwmmwmwwmwmwmwmwmwmwwmwmwwmwmwmwmwwmwm 
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被 广泛 用 于 保存 图 像 和 扫描 文档 ,简单 起 见 ,我 们 将 二 进 制 位 图 数据 组 织 为 将 像素 按 行 排列 的 比特 流 。 
我 们 可 以 用 PictureDump 查看 位 图 的 内 容 。 用 程序 将 为 “截屏 ”或 是 “扫描 文档 ”所 定义 的 多 种 常 
见 的 无 损 图 像 格式 转化 为 位 图 十 分 简单 ( 请 见 练习 5.5x) 。 这 里 用 来 展示 游程 编码 的 效果 的 示例 来 
自 本 书 的 图 像 : 一 个 字符 “q” (各 种 分 辩 率 ) 。 我 们 的 重点 是 一 幅 32 x 48 像素 的 截图 的 二 进 制 转 储 ， 
如 图 5.5.8 所 示 ， 每 行 的 右 侧 为 该 行 的 游程 编码 。 因 为 每 行 的 开始 和 结束 都 是 0， 所 以 每 行 的 游程 数 
量 都 是 奇数 。 因 为 一 行 的 结束 之 后 就 是 另 一 行 的 开始 ， 所 以 比特 流 中 相对 应 的 游程 的 长 度 就 是 每 一 
行 的 最 后 一 个 游程 的 长 度 和 下 一 行 的 第 一 个 游程 的 长 度 之 和 ( 全 部 为 0 的 行 则 应 该 继续 相 加 ) 。 
5.5.5.2 ”实现 

由 刚才 给 出 的 非 正 式 描 述 可 以 立即 得 
到 右边 框 注 中 的 compress() 和 expand() 
方法 。 和 以 前 一 样 ，expand() 的 实现 相对 a 
简单 : 读 取 一 个 游程 的 长 度 ， 将 当前 比特 { 
按照 长 度 复制 并 打印 ， 转 换 当 前 比特 然后 
继续 ， 直 到 输入 结束 。compress () 方法 也 
很 简单 。 对 于 输入 ， 它 进行 了 以 下 操作 : 

口 读 取 一 个 比特 ; 

口 如 果 它 和 上 一 个 比特 不 同 ， 写 入 当 : 

前 的 计数 值 并 将 计数 器 归 零 ， 村 static void compress() 
口 如 果 它 和 上 一 个 比特 相同 且 计数 器 
已 经 到 达 最 大 值 ， 则 写 人 计数 值 ， 


public static void expand() 


char cnt = BinaryStdIn.readChar() ; 
for (int i = 0; i < cnt; i++) 
BinaryStdOut .write(b) ; 


3 
BinaryStdOut.close() ; 
} 


char ent = O07 
boolean b, old = false; 
while (!BinaryStdIn.isEmpty()) 


再 写 人 一 个 0 计数 值 ， 然 后 将 计数 ‘ 


右 归 零 ; 

口 增加 计数 器 的 值 。 

当 输 入 流 结束 时 ， 写 入 计数 值 ( 最 后 
一 个 游程 的 长 度 ) 并 结束 。 
5.5.5.3 ”提高 位 图 的 分 辩 率 

游程 编码 广泛 用 于 位 图 的 主要 原因 是 ， 
随 着 分 辨 率 的 提高 它 的 效果 也 会 大 大 的 提 
高 。 证 明 这 一 点 很 简单 。 假 设 将 上 一 个 例 


if (b != 01d) 
{ 


BinaryStdOut.write(cnt); 
cnt = 0; 
old = !old; 

} 


else 


if (cnt == 255) 
{ 


BinaryStdOut .write(cnt); 


cnt = .0; 


BinaryStdOut.write(cnt); 


b = BinaryStdIn.readBooleanQO; 


子 中 的 分 辩 率 提高 一 倍 ， 则 很 容易 得 到 : 
口 总 比特 数 变 为 了 原来 的 4 倍 ; ith 
口 游程 的 数量 变 为 约 原来 的 2 倍 ; } 


BinaryStdOut .write(cnt); 
BinaryStdOut.closeQO); 


口 游程 的 长 度 变 为 约 原来 的 2 倍 ; 
口 压缩 后 的 比特 数量 变 为 约 原来 的 2 } 
倍 ; 

口 因此 ， 压 缩 率 变 成 了 原来 的 一 半 ! 

未 使 用 游程 编码 时 ， 当 分 辩 率 提高 一 
倍 时 图 像 所 需 空间 变 为 原来 的 4 倍 ; 使 用 了 游程 编码 后 ， 当 分 辩 率 提高 一 倍 时 压缩 后 的 比特 流 的 
长 度 仅 变 为 了 原来 的 一 倍 。 也 就 是 说 ， 随 着 所 需 空间 的 增 大 ， 压 缩 比 和 分 辩 率 成 反比 。 例 如 ， 我 
们 的 字母 “q” (在 低 分 辩 率 时 ) 的 压缩 率 为 74%; 如 果 将 分 辩 率 提高 到 64 x96， 压 缩 比 就 下 降 为 


游程 编码 的 压缩 和 展开 方法 
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37%。 我 们 从 图 5.5.9 中 PictureDump 的 输出 中 可 以 明显 看 出 这 个 变化 。 高 分 辩 率 的 字符 图 像 所 需 
的 空间 是 低 分 辩 率 字符 图 像 的 4 倍 (两 个 维度 上 的 长 度 均 加 倍 ) ， 但 压缩 后 的 版 本 所 需 的 空间 仅 为 
原来 的 2 倍 (只 在 一 个 维度 上 增 倍 ) 。 如 果 继 续 将 分 辩 率 提高 到 128 x 192( 接近 于 打印 所 需 的 分 辩 022 
率 ) ， 压 缩 比 则 会 下 降 到 18% ( 请 见 练习 5.5.5 ) 。 824 


小 型 测试 用 例 (40 位 ) 


% java BinaryDump 40 < 4runs.bin 
0000000000000001111111000000011111111111 


40 位 

% java RunLength - < 4runs.bin | java HexDump 
of 07 07 0b 

32 位 压缩 比 32/40=80% 


% java RunLength - < 4runs.bin | java RunLength + | java BinaryDump 40 
0000000000000001111111000000011111111111 -一 压缩 -展开 得 到 了 原始 输入 
40 位 


ASCII 文 本 (96 位 ) 


% java RunLength - < abra.txt | java HexDump 24 
01 01 05 01 01 01 04 01 02 01 01 01 02 01 02 01 05 01 01 01 04 02 01 01 
05 01 01 01 03 01 03 01 05 01 01 01 04 01 02 01 01 01 02 01 02 01 05 01 


02 01 04 01 
416 位 ~ 一 压缩 比 416/96=433% 一 一 请 勿 使 用 游程 编码 来 处 理 ASCII 文 本 ! 
- 幅 位 图 (1536 位 ) % java PictureDump 32 48 < q32x48.bin 


% java RunLength - < q32x48.bin > q32x48.bin.rle 
% java HexDump 16 < q32x48.bin.rle 

4f 07 16 Of Of 04 04 09 0d 04 09 06 Oc 03 0c 05 
ob 04 Oc 05 0a 04 0d 05 09 04 0e 05 09 04 0e 05 


08 04 Of 05 08 04 Of 05 07 05 Of 05 07 05 Of 05 1536 位 

07 05 Of 05 07 05 Of 05 07 05 Of 05 07 05 Of 05 % java PictureDump 32 36 < q32x48.rle.bin 
07 05 of 05 07 05 Of 05 07 06 0e 05 07 06 0e 05 全 

08 06 0d 05 08 06 0d 05 09 06 Oc 05 09 07 Ob 05 

0a 07 0a 05 Ob 08 07 06 0c 14 Oe Ob 02 05 11 05 


05 05 1b 05 1b 05 1b 05 1b 05 1b 05 1b 05 1b 05 上 
lb 05 lb 05 lb 05 lb 05 la 07 16 0c 13 0e 41 1144 位 
1144 位 ”~ 压缩 比 1144/1536=74% 


- 幅 分 辩 率 更 高 的 位 图 (6144 位 ) 

% java BinaryDump 0 < q64x96.bin 

6144 位 

% java RunLength - < q64x96.bin | java BinaryDump 0 
2296 位 = 一 ”压缩 比 2296/6144=37% 


% java PictureDump 64 96 < q64x96.bin 


6144 位 
% java PictureDump 64 36 < 9q64x96.rle.bin 


yd 
2296 位 
图 5.5.9 ”使 用 游程 编码 压缩 和 展开 比特 流 


游程 编码 在 许多 场景 中 非常 有 效 ， 但 在 许多 情况 下 我 们 希望 压缩 的 比特 流 并 不 含有 较 长 的 游程 
(例如 典型 的 英文 文档 ) 。 下 面 我 们 来 学 习 两 种 适用 于 多 种 类 型 的 文件 压缩 算法 。 它 们 的 应 用 非常 
广泛 ， 在 从 网 络 上 下 载 文 件 时 很 可 能 就 用 到 了 它们 。 825 
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5.5.6” 霍 夫 曼 讨 缩 

我 们 现在 来 学 习 一 种 能 够 大 幅 压 缩 自然 语言 文件 空间 (以 及 许多 其 他 类 型 文件 ) 的 数据 压缩 技 
术 。 它 的 主要 思想 是 放弃 文本 文件 的 普通 保存 方式 : 不 再 使 用 7 位 或 8 位 二 进 制 数 表示 每 一 个 字符 ， 
而 是 用 较 少 的 比特 表示 出 现 频率 高 的 字符 ， 用 较 多 的 比特 表示 出 现 频率 低 的 字符 。 

为 了 说 明 这 个 概念 , 先 来 看 一 个 简单 的 示例 。 假 设 需要 将 字符 串 AB RACADABRAL 编 码 。 
由 7 位 ASCII 字符 编码 我 们 可 以 得 到 比特 字符 串 : 


100000110000101010010100000110000111000001- 
100010010000011000010101001010000010100001. 


要 将 这 段 比特 字符 串 解 码 ， 只 需 每 次 读 取 7 位 并 根据 图 5.5.4 的 ASCII 编码 表 将 它 转换 为 字符 。 
在 这 种 标准 的 编码 下 ， 只 出 现 了 一 次 的 D 和 出 现 了 5 次 的 A 所 需 的 比特 数 是 一 样 的 。 霍 夫 曼 压 缩 的 
思想 是 通过 用 较 少 的 比特 表示 出 现 频 繁 的 字符 而 用 较 多 的 比特 表示 偶尔 出 现 的 字符 来 节省 空间 ， 这 
样 字 符 串 所 使 用 的 总 比特 数 就 会 降低 。 
5.5.6.1 ” 变 长 前 缀 码 

和 每 个 字符 所 相关 联 的 编码 都 是 一 个 比特 字符 串 ， 就 好 像 有 一 个 以 字符 为 键 、 比 特 字符 串 为 值 
的 符号 表 一 样 。 我 们 可 以 试 着 将 最 短 的 比特 字符 串 赋予 最 常用 的 字符 , 将 A 编码 为 0、B 编码 为 1、 
R 为 00、C 为 01、D 为 10、! 为 11。 这 样 ABRACADABRAI 的 编码 就 是 010000101001 
00 0 11。 这 种 表示 方法 只 用 了 17 位 , 而 7 位 的 ASCII 编码 则 用 了 77 位。 但 这 种 表示 方法 并 不 完整 ， 
因为 它 需 要 空格 来 区 分 字符 。 如 果 没 有 空格 ， 比 特 字符 串 就 会 变 成 这 个 样子 : 

01000010100100011 

它 也 可 以 被 解码 为 CR RD D C R CB 或 是 其 他 字符 串 。 但 17 位 加 上 10 个 分 阳 符 也 比 标准 的 
编码 要 紧凑 的 多 了 ， 没 有 用 于 编码 的 比特 字符 不 会 在 这 条 消息 中 出 现 。 如 果 所 有 字符 编码 都 不 会 成 
为 其 他 字符 编码 的 前 级 ， 那 么 就 不 需要 分 隔 符 了 。 下 一 步 我 们 就 要 做 到 这 一 点 。 含 有 这 种 性 质 的 编 
码 规则 叫做 前 组 码 。 刚 才 我 们 给 出 的 编码 并 不 是 前 级 码 ， 因 为 A 的 编码 0 就 是 R 的 编码 00 的 前 级 。 
例如 ， 如 果 我 们 将 A 编码 为 0、B 为 1111、C 为 110、 DD 为 100、R 为 1110、! 为 101， 那么 将 以 下 
长 为 30 的 比特 字符 串 解 码 的 方式 就 只 有 ABRACADABRA! 一 种 了 : 

011111110011001000111111100101 

所 有 的 前 级 码 的 解码 方式 都 和 它 一 样 ， 是 唯一 的 (不 需要 任何 分 隔 符 ) ， 因 此 前 缀 码 被 广泛 应 
用 于 实际 生产 之 中 。 注 意 , 像 7 位 ASCII 编码 这 样 的 定 长 编码 也 是 前 级 码 。 
5.5.6.2 ”前 缀 码 的 单词 查找 树 

表示 前 级 码 的 一 种 简便 方法 就 是 使 用 单词 查找 树 ( 请 见 5.2 节 ) 。 事 实 上 ,任意 含有 MM 个 空 链 
接 的 单词 查找 树 都 为 M 个 字符 定义 了 一 种 前 绥 码 方法 : 我 们 将 空 链接 替换 为 指向 叶子 结 点 〈 含 有 
两 个 空 链接 的 结 点 ) 的 链接 ， 每 个 叶子 结 点 都 含有 一 个 需要 编码 的 字符 。 这 样 ， 每 个 字符 的 编码 就 
是 从 根 结 点 到 该 结 点 的 路 径 表 示 的 比特 字符 串 ， 其 中 左 链 接 表示 0， 右 链接 表示 1。 例 如 ， 图 5.5.10 
显示 了 字符 串 ABRACADABRAI! 中 的 字符 的 两 种 前 缀 码 方式 。 上 方 的 例子 就 是 我 们 刚才 提 到 
的 编码 方式 ， 下 方 的 编码 得 到 的 比特 字符 串 为 : 

11000111101011100110001111101 

该 字符 串 只 有 29 位 ， 比 上 一 种 少 1 位 。 是否 存在 能 够 压缩 得 更 多 的 单词 查找 树 呢 ? 我 们 如 何 
才能 找到 压缩 率 最 高 的 前 绥 码 ? 实际 上 ， 这 些 问 题 都 有 一 个 优雅 的 解 。 有 一 种 算法 能 够 为 任意 字符 
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串 构造 一 棵 能 够 将 比特 流 最 小 化 的 单词 查找 树 。 为 了 编译 表 单词 查找 树 的 表示 
公平 比较 各 种 编码 , 还 需要 计算 编码 本 身 所 需 的 空间 ， yi dn 

因为 没有 它 就 无 法 将 字符 串 解码 。 你 会 看 到 ， 编 码 的 : 

方式 是 和 字符 串 相关 的 。 寻 找 最 优 前 级 码 的 通用 方法 CE i 

是 D.Huffman 在 1952 年 发 现 的 ( 当时 他 还 是 个 学 生 ! )， D100 :和 
因此 被 称 为 霍 夫 曼 编码 Be 路 忆 
5.5.6.3 ”概述 (Ry (B, 


te tale ge 压缩 后 的 比特 字符 串 
使 用 前 级 码 进行 数据 压缩 需要 经 过 5 个 主要 步 又 。 OLLITOOL LOOL OD LL < 一 30 位 
我 们 将 待 编码 的 比特 流 看 作 一 个 字 节 流 并 按照 以 下 方 
式 使 用 前 级 码 


口 构造 一 棵 编码 单词 查找 树 ; 





口 将 该 树 以 字 节 流 的 形式 写 人 输出 以 供 展开 时 使 
用 ; 

口 使 用 该 树 将 字 节 流 编码 为 比特 流 。 

在 展开 时 需要 : 


口 读 取 单 词 查 找 树 (保存 在 比特 流 的 开头 ) ; 


占用 该 树 将 比 午 压缩 后 的 比特 字符 串 

口 使 有 该 全 将 比特 流 解码 。 a 
为 了 帮助 你 更 好 地 理解 和 领会 这 个 过 程 , 我 们 将 。 AB RA CA DAB RA | a 
按照 难度 逐个 考察 这 些 步 又 。 和 


5.5.6.4 ”单词 查找 树 的 结 点 
我 们 首先 过 到 的 是 如 后 面 框 注 所 示 的 Node 类 。 它 和 我 们 曾经 用 来 构造 二 又 树 和 单词 查找 树 的 
髋 套 类 相似 每 个 Node 对 象 都 含有 指向 其 他 Node 对 象 的 1eft 和 right 引用 ， 这 定义 了 单词 查找 
树 的 结构 。 每 个 Node 对 象 还 包含 一 个 实例 变量 freq， 构 造 函 数 会 用 到 它 。 另 一 个 实例 变量 ch 用 
于 表示 叶子 结 点 中 需要 被 编码 的 字符 。 


private static class Node implements Comparable<Node> 
{ // 鹤 夫 曼 单 词 查 找 树 中 的 结 点 

private char ch;  // 内 部 结 点 不 会 使 用 该 变量 

private int freq; // 展开 过 程 不 会 使 用 该 变量 

private final Node left, right; 


Node(char ch, int freq, Node left, Node right) 


4 
this.ch a Chs 
this.freq = freq; 
this.left = left; 
this, right = rights 
} 


public boolean isLeaf() 
{ return left == nul] && right == null; } 


public int compareTo(Node that) 
{ return this.freq - that.freq; } 


单词 查找 树 的 结 


点 表示 
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public static void expand() 


5.5.6.5 ”使 用 前 级 码 展开 
有 了 定义 前 级 码 的 单词 查找 树 ， 扩 展 被 编 


t 

Node root = readTrieQ); 码 的 比特 流 就 简单 了 。 后 面 框 注 中 的 expandQ) 

int N = BinaryStdIn.readInt() ; Se RN Ey 
for Cint 1 = 0; i < N; i++) 方法 实现 了 这 个 过 程 。 在 从 标准 输入 中 使 用 后 
geet 文 所 述 的 readTrieO 方法 读 取 了 单词 查找 树 

ode x = root,; 
while (!x.isLeaf()) 之 后 ， 用 它 将 比特 流 的 其 余部 分 展开 : 根据 比 
if (BinaryStdIn.readBoolean()) 特 流 的 输入 从 根 结 点 开始 向 下 移动 ( 读 取 一 个 
= Xx.right; 

hi 比特 ， 如 果 为 0 则 移动 到 左 子 结 点 ， 如 果 为 1 
Y BinaryStdOut.write(x.ch); 则 移动 到 右 子 结 点 ) 。 当 遇 到 叶子 结 点 后 ， 输 
BinaryStdOut.close(); 出 该 结 点 的 字符 并 重新 回 到 根 结 点 。 如 果 你 仔 
1 细 研 究 这 个 方法 在 图 5.5.11 中 的 小 型 前 级 码 示 


例 中 的 表现 ， 就 能 够 理解 这 个 过 程 。 例 如 ， 在 
解码 比特 流 011111001011... 时 , 从 根 结 点 开始 ， 
因为 第 一 个 比特 是 0， 所 以 移动 到 左 子 结 点 ， 输 出 A; 回 到 根 结 点 ， 向 右 子 结 点 移动 3 次 ， 然 后 输 
出 B; 回 到 根 结 点 ， 向 右 子 结 点 移动 两 次 ， 左 子 结 点 移动 1 次 ， 输 出 R; 如 此 往复 。 展 开 的 简单 性 
也 是 前 级 码 ， 特 别 是 霍 夫 曼 压缩 算法 流行 的 原因 之 一 。 
5.5.6.6 ”使 用 前 缀 码 压 缩 

在 压缩 时 ， 我 们 使 用 单词 查找 树 定义 的 编码 来 构造 编 


前 绥 码 的 展开 (解码 ) 


编译 表 ”单词 查找 树 的 表示 


5 


键 

译 表 ， 如 后 面 框 注 中 的 bui1dCode() 方法 所 示 。 该 方法 短 L010 
小 而 优雅 , 其 巧妙 之 处 值得 仔细 研究 。 对 于 任意 单词 查找 树 ， B 111 
它 都 能 产生 一 张 将 树 中 的 字符 和 比特 字符 串 ( 用 由 0 和 1 ”5 了 六 训 由 
组 成 的 String 字符 串 表示 ) 相对 应 的 编译 表 。 编 译 表 就 是 。 R_ 110 a a 
一 张 将 每 个 字符 和 它 的 比特 字符 串 相关 联 的 符号 表 : 为 了 
提升 效率 ， 我 们 使 用 了 一 个 由 字符 索引 的 数组 st[] 而 非 普 图 5.5.11 一 种 霍 夫 曼 编码 
通 的 符号 表 ， 因 为 字符 的 数量 并 不 多 。 在 构造 该 符号 表 时 ， 
buildCode() 递归 遍历 整 棵 树 并 为 每 个 结 点 维护 了 一 条 从 根 结 点 到 它 的 路 径 所 对 应 的 二 进 制 字符 串 
(0 表示 左 链接 ，! 表示 右 链 接 ) 。 每 当 到 达 一 个 叶子 结 点 时 ,算法 就 将 结 点 的 编码 设 为 该 二 进 制 
字符 串 。 编 译 表 建 立 之 后 ， 压 缩 就 很 简单 了 ， 只 需 在 其 中 查找 输入 字符 所 对 应 的 编码 即 可 。 使 用 后 

面 框 注 中 的 编码 压缩 A B 


private static String[] buildCode(Node root) 
{ // 使 用 单词 查找 树 构造 编译 表 
String[] st = new String[R]; 
buildCode(st, root, ""); 
return st; 


RACADABRA!, 首 
先 写 人 0 (A 的 编码 ) ， 
然后 是 111 (B 的 编码 ) ， 
然后 是 110 (R 的 编码 ) ， 
等 等 。 框 注 中 的 这 一 段 


} 
private static void buildCode(String[] st, Node x, String s) 


{ ”// 使 用 单词 查找 树 构造 编译 表 ( 递归 ) 代码 完成 的 任务 是 查找 
if (x.isLeaf Se 
L Me Se return; } 输入 的 每 个 字符 所 对 应 
buildCode(st, x.left, s + '0'); 的 编码 String 对 象 ， 将 
buildCode(st, x.right, s + '1'); 
char 数组 中 字符 转化 为 


0 和 1 的 值 并 写 和 输出 的 


通过 前 绥 码 字典 查找 树 构 建 编译 表 比特 字符 串 中 。 
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5.5.6.7 单词 查找 树 的 构造 


for (Cint 1 = 0; i < input.length; i++) 


{ 作为 描述 过 程 的 参考 ， 图 5.5.12 展 
String code = st[input[i]]; 示 了 为 以 下 输入 构造 一 棵 霍 夫 曼 单词 查 
for (int j = 0; j < code.length(); j++) \ 

if (code.charAt(j) == '1') 找 树 的 过 程 : 

BinaryStdOut.write(true); b. 2 3 
else BinaryStdOut .writeCfalse) ; it was the best of times it was the 
worst of times 

op 我 们 将 需要 被 编码 的 字符 放 在 叶子 
使 用 秽 泽 表 的 压 听 结 点 中 并 在 每 个 结 点 中 维护 了 一 个 名 为 
freq 的 实例 变量 来 表示 以 它 为 根 结 点 的 子 树 中 的 所 有 字符 出 现 的 频率 。 构 造 的 第 一 步 是 创建 一 片 由 许 
多 只 有 一 个 结 点 〈 即 叶子 结 点 ) 的 树 所 组 成 的 森林 。 每 棵 树 都 表示 输入 流 中 的 一 个 字符 ， 每 个 结 点 中 的 


freq 变量 的 值 都 表示 了 它 在 输入 流 中 的 出 现 频率 。 在 我 们 的 例子 中 ， 输 入 含有 8 个 t， 5 个 e，11 个 空 
格 等 ( 特别 提示 : 为 了 得 到 这 些 频率 ， 需 要 读 取 整 个 输入 流 一 一 霍 夫 曼 编码 是 一 个 两 轮 算法 ， 因 为 需要 
再 次 读 取 输 入 流 才能 压缩 它 ) 。 接 下 来 自 底 向 上 根据 频率 构造 这 棵 编码 的 单词 查找 树 。 在 构造 时 将 它 看 
作 一 棵 结 点 中 含有 频率 信息 的 二 又 树 ; 在 构造 后 ， 我 们 才 将 它 看 作 一 棵 用 于 编码 的 单词 查找 树 。 构 造 过 
程 如 下 : 首先 找到 两 个 频率 最 小 的 结 点 ， 然 后 创建 一 个 以 二 者 为 子 结 点 的 新 结 点 (新 结 点 的 频率 值 为 它 
的 两 个 子 结 点 的 频率 值 之 和 ) 。 这 个 操作 会 将 森林 中 树 的 数量 减 一 。 然 后 不 断 重 复 这 个 过 程 ， 找 到 森林 
中 的 两 棵 频率 最 小 的 树 并 用 相同 的 方式 创建 一 个 新 的 结 点 。 用 优先 队列 能 够 轻易 实现 这 个 过 程 ， 如 左下 
框 注 的 buildTrie 方法 所 示 。 ( 为 了 说 明 这 个 过 程 ， 图 5.5.12 中 的 所 有 单词 查找 树 是 有 序 的 。 ) 随 着 
这 个 过 程 的 继续 ， 我 们 构造 的 单词 查找 树 将 越 来 越 大 ， 而 森林 中 的 树 会 越 来 越 少 〈 每 一 步 都 会 删除 两 棵 
树 ， 添 加 一 棵 新 树 ) 。 最 终 ， 所 有 的 结 点 会 被 合并 为 一 棵 单独 的 单词 查找 树 。 这 棵 树 中 的 叶子 结 点 为 所 
有 待 编码 的 字符 和 它们 在 输入 中 出 现 的 频率 ， 每 个 非 叶 子 结 点 中 的 频率 值 为 它 的 两 个 子 结 点 之 和 。 频 率 
较 低 的 结 点 会 被 安排 


在 树 的 底层 ， 而 高 频 
率 的 结 点 则 会 被 安排 private static Node buildTrie(int[] freq) 
举国 短 咏 则 全 





{ 
在 根 结 点 附近 的 地 方 。 // 使 用 多 棵 单 结 点 树 初 始 化 优先 队列 
二 让 MinPQ<Node> pq = new MinPQ<Node>() ; 
根 结 点 的 频率 值 等 于 for (char c= 0; Cc < R; c++) 
输入 中 的 字符 数量 。 if (freq[c] > 0) 
因为 这 是 一 棵 二 叉 树 pq.insert(new Node(c, freq[c], null, nul1)); 
Ey ee while (pq.size() > 1) 
a { // 合并 两 村 频率 最 小 的 树 
结 点 中 ， 所 以 就 定义 Node x = pq.delMin(); 
子 汶 此 空竹 的 前 绍 三 Node y = pq.delMin0); 
了 这 些 字符 的 前 缀 码 。 Node parent = new Node('\0', x.freq + y.freq, x, y); 
使 用 buildCode0) 方 pq.insert(parent); 
法 为 这 个 示例 构造 的 . 


return pq.delMinO; 


编译 表 ( 如 图 5.5.13 } 


的 右 侧 所 示 ) ， 得 到 
了 JR 二 遇 。 构造 一 棵 稚 夫 曼 编码 单词 查找 树 


10111110100101101110001111110010000110101100- 
01001110100111100001111101111010000100011011- 
11101001011011100011111100100001001000111010- 
01001110100111100001111101111010000100101010. 


字 符 串 
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这 个 比特 字符 串 长 176 位 ， 相 比 用 标准 的 8 位 ASCII 编码 得 到 的 51 个 字符 的 408 位 编码 节省 了 
忆 


57% (没有 计算 构造 编码 的 开销 ， 下 面 马 上 讨论 ) 。 另 外 ， 因 为 它 是 一 个 霍 夫 受 编码 ， 所 以 不 存在 


其 他 能 够 用 更 少 的 比特 将 输入 编码 的 前 级 码 了 。 
S| 





构造 一 棵 霍 夫 曼 编码 单词 查找 树 


图 5.5.12 
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| 编译 表 
字典 查找 树 的 表示 键 值 
LF 
本 
人 让 a 11011 
WN b 101011 
外 大 e 000 
g f 11000 
志 h 11001 
0 1 i 1011 
(w) (0) m 11010 
0 0011 
r 10100 
w 在 输入 中 s 100 
出 现 了 3 次 men a 
径 上 的 标签 依次 w oo10 


0 因此 11010 
就 是 M 的 编码 


图 5.5.13 ”字符 串 “it was the best of times it was the worst of times LF” 的 霍 夫 曼 编码 


5.5.6.8 ”最 优 性 
我 们 已 经 看 到 ， 在 树 中 高 频率 的 字符 比 低频 率 的 字符 离 根 结 点 更 近 ， 因 此 编码 所 需 的 比特 更 
少 ， 所 以 这 种 编码 的 方式 更 好 。 但 为 什么 这 是 一 种 最 优 的 前 缀 码 呢 ?” 要 回答 这 个 问题 ， 首 先 要 定 
义 树 的 加 权 外 部 路 径 长 度 这 个 概念 ， 它 是 所 有 叶子 结 点 的 权重 ( 频率 ) 和 深度 (请 见 1.5.2.5 节 ) 贺 
之 积 的 和 。 832 


命题 T。' 对 于 任意 前 级 码 ， wn Bad hie ak Eye rs 
长 度 。 


证 明 。 每 个 叶子 结 点 的 深度 就 是 将 该 叶子 结 点 的 字符 编码 所 需 的 比特 数 。 因 此 ， 加 权 外 部 路 
径 长 度 就 是 编码 后 的 比特 字符 串 的 长 度 : 它 等 于 所 有 字符 的 出 现 次 数 和 字符 的 编码 长 度 之 积 
的 和 。 


在 示例 中 ， 有 一 个 叶子 结 点 的 距离 为 2 ( SP， 出现 频率 为 11 ) ， 三 个 距离 为 3 (e、s 和 t 上 ， 总 
频率 为 19 ) ， 三 个 距离 为 4(w、o 和 1i， 总 频率 为 10 ) ， 五 个 距离 为 5 (r、f、h、m 和 a， 总 频率 
为 9 ) ， 两 个 距离 为 6 (LF 和 bb， 总 频率 为 2 ) ， 因 此 综合 为 2 x 11+3 x 19+4 x 10+5 x 9+6 x 2=176。 
这 与 输出 的 比特 字符 串 的 长 度 预期 相等 。 


命题 U。 给 定 一 个 含有 个 符号 的 集合 和 它们 的 频率 ， 霍 夫 曼 算法 所 构造 的 前 级 码 是 最 优 的 。 


证 明 。 数 学 归纳 法 。 假 设 霍 夫 曼 编 码 对 于 任意 规模 小 于 7 的 符号 集合 都 是 最 优 的 。 设 Zr 是 用 
霍 夫 曼 算 法 计算 并 编码 符号 集 和 相应 的 频率 (51, 有),…,(5,,f,) 所 得 到 的 输出 ， 并 用 WI(T) 表示 输 
出 的 总 长 度 (单词 查找 树 的 加 权 外 部 路 径 长 度 ) 。 假 设 (ss1) 和 (si 万 ) 是 最 先 被 选中 的 两 个 符 
号 ， 那 么 算法 接 下 来 将 计算 (sf)) 和 (sj, 有/) 被 (s*,fi) 替代 后 的 r-l 个 符号 的 集合 的 编码 以 输 
出 Ti*， 其 中 s* 表示 深度 为 d 的 某 个 叶子 结 点 中 的 新 符号 。 可 以 注意 到 : 
WOTA)=WOTH*) -df tf) + A+) Git)=W TI) + tf)) 
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3] 


现在 ， 假 设 (s1,11),…,(s,, f,) 有 一 棵 最 优 的 高 度 为 的 单词 查找 树 T。 注 意 ，(sf)) 和 (sj,f) 的 
深度 必然 都 是 h (否则 将 它们 和 深度 为 hh 的 结 点 交换 就 可 以 得 到 一 棵 加 权 外 部 路 径 长 度 更 小 的 
单词 查找 树 ) 。 另 外 ， 通 过 将 (SP f) 和 (ssf 7) 的 兄弟 结 点 交换 可 以 假设 (5,,f 0)) 和 (sf)) 是 兄 
弟 结 点 。 现 在 ， 考 虑 将 它们 的 父 结 点 替换 为 (S*, 矿 )) 所 得 到 的 树 T+。 注 意 (用 同样 的 方法 可 以 
得 到 ) WT)=W(T*)+(f tf )。 
根据 归纳 法 ，7Tp* 是 最 优 的 ， 即 (Tp*) < WW(T*)。 因 此 有 : 

WOTW)=WOT I +t) < WOT*) + At) =WT) 
因为 了 是 最 优 的 ， 等 号 必然 成 立 ， 因 此 Th 也 是 最 优 的 。 


每 当 一 个 结 点 被 选中 时 ， 也 可 能 有 若干 个 结 点 和 它 的 权重 相同 。 霍 夫 曼 算法 并 没有 说 明 如 
何 区 别 它们 ,也 没有 说 明 应 该 如 何 确定 子 结 点 的 左右 位 置 . 不 同 的 选择 会 得 到 不 同 的 霍 夫 曼 编码 ， 
但 用 它们 将 信息 编码 所 得 到 的 比特 字符 串 在 所 有 前 级 码 中 都 是 最 优 的 。 
5.5.6.9 写 入 和 读 取 单词 查找 树 

我 们 已 经 强调 过 ， 图 5.5.13 中 所 显示 出 的 空间 节约 并 不 准确 ， 因 为 没有 单词 查找 树 被 压缩 的 比特 
流 是 无 法 被 解码 的 。 所 以 ， 我 们 必须 将 输出 比特 字符 串 中 的 单词 查找 树 的 成 本 考虑 进来 。 对 于 较 长 的 
输入 ， 这 个 成 本 相对 较 小 。 但 为 了 保证 数据 压缩 流程 的 完整 ， 必 须 在 压缩 时 将 树 写 入 比特 流 并 在 展开 
时 读 取 它 。 怎 样 才能 将 一 棵 单词 查找 树 编码 为 比特 流 并 展开 它 呢 ?其 实 ， 只 要 基于 单词 查找 树 的 前 序 
遍历 ， 这 两 个 任务 都 只 需要 很 简单 的 递归 即 可 完成 。 下 面 框 注 中 的 writeTrie() 方法 会 按照 前 序 遍 
历 单词 查找 树 : 当 它 访问 的 是 一 个 内 部 结 点 时 ， 它 会 写 人 一 个 比特 0; 当 它 访问 的 是 一 个 叶子 结 点 时 ， 
它 会 写 人 一 个 比特 1， 紧 接着 是 该 叶子 结 点 中 字符 的 8 位 ASCI[ 编 码 。 ABRACADABRAI 的 
霍 夫 曼 树 的 比特 字符 串 编 码 如 图 5.5.14 所 示 。 第 一 位 是 0， 对 应 着 根 结 点 ; 下 一 个 遇 到 是 含有 A 的 叶 
子 结 点 ， 因 此 下 一 位 为 1， 紧 接着 是 01000001， 即 “A” 的 8 位 ASCI 编码 。 下 两 位 均 为 0， 因 为 遇 
到 的 都 是 两 个 内 部 结 点 ， 等 等 。 相 应 的 readTrie() 如 框 注 所 示 。 它 从 比特 字符 串 中 重新 构造 了 单词 
查找 树 : 首先 读 取 一 个 比特 以 得 到 当前 结 点 的 类 型 ， 如 果 是 叶子 结 点 ( 比特 为 1 ) 那么 就 读 取 字符 的 
编码 并 创建 一 个 叶子 结 点 ; 如 果 是 内 部 结 点 ( 比特 为 0 ) 那么 就 创建 一 个 内 部 结 点 并 ( 递归 地 ) 继续 
构造 它 的 左右 子 树 。 请 一 定 要 理解 这 些 方法 : 它们 的 简洁 性 有 时 是 有 欺骗 性 的 。 


private static void 
writeTrie(CNode x) 
{ // 输出 单词 查找 树 的 比特 字符 囊 
if (x.isLeaf()) 
{ 
BinaryStdOut.write(true); 
BinaryStdOut.write(x.ch); 





return; 
: 叶子 结 点 
BinarySstdOut.writeCfalse) ; A D LF © R B 
writeTrie(x. left); ee 10 oe 1000010101010000110101010010101000010 
writeTrie(x.right); 
xur Tghte)s ! 4 5 一 一 内 部 结 点 


将 单词 查找 树 写 为 比特 字符 串 图 5.5.14 使 用 前 序 遍历 将 一 棵 单词 查找 树 编码 为 比特 流 
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private static Node readTrieQ) 


if (BinaryStdIn.readBoolean()) 
return new Node(BinaryStdIn.readChar()，0，nul1，nul1) ; 
return new Node('\0', 0, readTrie(), readTrie()); 
} 


从 比特 流 的 前 序 表示 中 重建 单词 查找 树 


5.5.6.10” 霍 夫 曼 压缩 的 实现 

算法 5.10 加 上 之 前 讨论 过 的 buildCode()、buildTrie()、readTrie() 和 write-Trie() (以 
及 一 开始 展示 的 expand0Q 方法 ) ， 就 是 霍 夫 曼 压 缩 算法 的 完整 实现 。 为 了 展开 前 文 对 算法 的 概述 ， 
我 们 将 需要 压缩 的 比特 流 看 作 8 位 编码 的 Char 值 流 并 将 它 按照 如 下 方法 压缩 : 

口 读 取 输 入 ; 

口 将 输入 中 的 每 个 char 值 的 出 现 频率 制 成 表格 ; 

口 根据 频率 构造 相应 的 霍 夫 曼 编码 树 ; 

口 构造 编译 表 ， 将 输入 中 的 每 个 char 值 和 一 个 比特 字符 串 相关 联 ; 

口 将 单词 查找 树 编 码 为 比特 字符 串 并 写 人 输出 流 ; 

口 将 单词 总 数 编码 为 比特 字符 串 并 写 入 输出 流 ; 

口 使 用 编译 表 翻 译 每 个 输入 字符 。 

要 展开 一 条 编码 过 的 比特 流 ， 步 又 如 下 : 

口 读 取 单 词 查找 树 〈 编码 在 比特 流 的 开头 ) ; 

口 读 取 需 要 解码 的 字符 数量 ; 

口 使 用 单词 查找 树 将 比特 流 解 码 。 

霍 夫 曼 压 缩 算法 含有 4 个 递归 方法 处 理 单词 查找 树 ， 整 个 压缩 过 程 需要 7 步 ， 是 我 们 学 习 的 较 
为 复杂 的 算法 之 一 ， 请 见 图 5.5.15。 但 因为 效率 高 ， 它 也 是 应 用 最 广泛 的 算法 之 一 。 835 


算法 5.10 ” 霍 夫 曼 压 缩 





public class Huffman 

{ 
private static int R = 256;  // ASCII 字 母 表 
// Node 内 部 类 请 见 5.5.6.4 节 框 注 “单词 查找 树 的 结 点 表示 ” 
// 其 他 辅助 方法 和 eXpand() 方 法 请 见 正文 


public static void compress() 
{ 
// 读 取 输 入 
String s = BinaryStdIn.readString(); 
char[] input = s.toCharArray(); 
// 统计 频率 
int[] freq = new int[R]; 
for (int i = 0; i < input.length; i++) 
freq[input[i]]++; 
// 构造 霍 夫 曼 编码 树 
Node root = buildTrie(freq); 
// (递归 地 ) 构造 编译 表 
String[] st = new String[R]; 


548 入 第 5 章 字 符 串 


buildCode(st, root, ""); 


// (递归 地 ) 打印 解码 用 的 单词 查找 树 
writeTrieCroot) ; 


// 打印 字符 总 数 
BinaryStdOut.write(input.length); 


// 使 用 霍 夫 曼 编码 处 理 输入 
for (int i = 0; i < input.length; i++) 
{ 
String code = st[input[i]]; 
for (int j = 0; j < code.length(); j++) 
if (code.charAt(j) == "1") 
BinaryStdOut .write(true); 
else BinaryStdOut.write(false); 


} 
BinaryStdOut.close(O); 
* 
} 
836 这 有 段 霍 夫 曼 编 码 算法 的 实现 构造 了 一 棵 清晰 的 编码 单词 查找 树 并 使 用 了 前 文 所 述 的 各 种 辅助 方法 。 








测试 用 例 (96 位 ) 


% more abra.txt 
ABRACADABRA! 


% java Huffman - < abra.txt | java BinaryDump 60 

010100000100101000100010000101010100001101010100101010000100 
000000000000000000000000000110001111100101101000111110010100 
120 位 -一 压缩 率 120/96=125%， 原 因 是 字典 查找 树 需要 59 位 ， 字 符 总 数 需要 32 位 


正文 中 的 例子 (408 位 ) 
% more tinytinyTale .txt 
it was the best of times it was the worst of times 


% java Huffman - < tinytinyTale.txt | java BinaryDump 64 
0001011001010101110111101101111100100000001011100110010111001001 
0000101010110001010110100100010110011010110100001011011011011000 
0110111010000000000000000000000000000110011101111101001011011100 
0111111001000011010110001001110100111100001111101111010000100011 
0111110100101101110001111110010000100100011101001001110100111100 
00111110111101000010010101000000 

352 位 一 一 压缩 率 352/408=86%， 尽 管 字典 查找 树 占用 了 137 位 ， 字 符 总 数 占 用 了 32 位 


% java Huffman - < tinytinyTale.txt | java Huffman + 
it was the best of times it was the worst of times 


《双城记 》 的 第 一 章 


eDump 
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45056 位 
% java te -< medTale. txt | 3 Cn Be hd 





SR 六 


23912 位 -一 压缩 率 23912/45056=53 
《双城记 》 全文 


% java BinaryDump 0 < tale.txt 
5812552 位 


% java Huffman - < tale.txt > tale.txt,huf 
% java BinaryDump 0 < tale.txt.huf 
3043928 位 <- 一 压缩 率 3043928/5812552=52% 


图 5.5.15 使 用 霍 夫 曼 编码 压缩 和 展开 字 节 流 ( 续 ) 

和 霍 夫 曼 压 缩 算法 流行 的 一 个 原因 是 ,不仅 对 于 自然 语言 文本 ， 它 对 各 种 类 型 的 文件 都 有 效果 。 
我 们 在 编写 方法 的 代码 时 十 分 小 心 ， 以 保证 它 能 够 正确 处 理 8 位 字符 可 能 表示 的 任意 8 位 值 。 换 句 
话说 , 我们 可 以 将 它 应 用 于 任何 字 节 流 。 对 于 我 们 在 本 节 中 讨论 过 的 其 他 几 种 类 型 的 文件 ， ss 
显示 了 这 些 例子 ,说 明了 霍 夫 曼 压缩 与 定 长 编码 以 及 游程 编码 相 比 仍然 十 分 具有 竞争 力 ， 这 些 
算法 是 为 某 些 类 型 的 文件 专门 设计 的 。 dip nether i dt 
于 基因 组 数据 ， 霍 夫 曼 压缩 实际 上 发 现 了 双 位 编码 。 因 为 4 种 字符 的 出 现 频率 基本 相同 ， 因 此 霍 夫 
曼 编码 树 是 平衡 的 ， 每 个 字符 分 配 到 的 都 是 一 个 两 位 的 编码 。 在 游程 编码 的 示例 中 ，00000000 
和 11111111 都 可 能 是 出 现 最 频繁 的 字符 ， 因 此 它们 的 编码 可 能 只 有 2 ~ 3 位 ， 这 样 就 能 够 大 幅 
度 地 压缩 输入 数据 。 


病毒 (50 000 位 ) 


% java Genome 于 起 boi ie rus. A | java ht 512 25 





12536 位 
% | Huffman - < de rus. oat | Java Wie a 512 25 





位 图 (1536 位 ) 
% java RunLength - < q32x48.bin | java BinaryDump 0 
1144 位 


% java Huffman  - < q32x48.bin | java BinaryDump 0 
816 位 + 一 霍 夫 曼 压 缩 算法 比 自 定 义 算法 使 用 的 比特 数 少 29% 


更 高 分 辨 率 的 位 图 (6144 位 ) 
% java RunLength - < q64x96.bin | java BinaryDump 0 
2296 位 


% java Huffman - < q64x96.bin | java BinaryDump 0 
2032 位 ”一 一 对 于 更 高 的 分 辨 率 ， 差 距 缩 小 到 11% 


图 5.5.16 用 霍 夫 曼 编码 压缩 和 展开 基因 组 和 位 图 数据 
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除了 震 夫 曼 压 缩 算 法 ， 另 一 种 值得 一 提 的 选择 是 20 世纪 70 年 代 末 至 80 年 代 初 由 A.Lempel、 
J.Ziv 和 工 Welch 发 明 的 一 种 算法 。 它 的 应 用 也 非常 广泛 ， 因 为 它 的 实现 简单 ， 而 且 也 适用 于 多 种 类 
型 的 文件 。 

这 种 算法 的 基本 思想 和 霍 夫 曼 编 码 的 基本 思想 相反 。 霍 夫 曼 算法 是 为 输入 中 的 定 长 模式 产生 一 
张 变 长 的 编码 编译 表 ， 但 这 种 方法 是 为 输入 中 的 变 长 模式 生成 一 张 定 长 的 编码 编译 表 。 这 种 方法 的 
男 一 种 令 人 惊讶 的 特性 在 于 ， 和 和 霍 夫 曼 编码 不 同 ， 输 出 中 不 需要 附 上 这 张 编译 表 。 
5.5.6.11 LZW 压缩 算法 

为 了 说 明 这 种 算法 的 基本 思想 ， 先 来 看 一 个 数据 压缩 的 示例 。 假 设 需 要 读 取 一 列 由 7 位 ASCII 
编码 的 字符 组 成 的 输入 流 并 将 它们 写 为 一 条 8 位 字 节 的 输出 流 。 ( 在 实际 应 用 中 使 用 的 参数 值 一 般 
都 会 更 大 一 一 实现 中 使 用 的 是 8 位 的 输入 和 12 位 的 输出 。 ) 我 们 将 输入 字 节 称 为 字符 ， 输 入 的 字 
节 序 列 称 为 字符 串 ， 输 出 字 节 称 为 编码 ， 尽 管 这 些 术 语 在 其 他 情况 下 的 意义 有 所 不 同 。LZW 压缩 
算法 的 基础 是 维护 一 张 字 符 串 键 和 ( 定 长 ) 编码 的 编译 表 。 在 符号 表 中 将 128 个 单字 符 键 的 值 初 始 
化 为 8 位 编码 ， 即 在 每 个 字符 的 7 位 值 前 添加 一 个 0。 为 了 简单 明了 ， 用 十 六 进 制 数字 来 表示 编码 
的 值 ， 这 样 ASCII 的 A 的 编码 即 为 41，R 的 编码 为 52， 等 等 。 我 们 将 80 保留 为 文件 结束 的 标志 并 
将 其 余 的 编码 值 (81 ~ FF ) 分 配给 在 输入 中 遇 到 的 各 种 子 字符 串 ， 即 从 81 开始 不 断 为 新 键 赋 予 更 
大 的 编码 值 。 为 了 压缩 数据 ， 只 要 输入 还 未 结束 ， 就 会 不 断 进行 以 下 操作 : 

口 找 出 未 处 理 的 输入 在 符号 表 中 最 长 的 前 级 字符 串 s; 

口 输出 s 的 8 位 值 (编码 ); 

口 继续 扫描 s 之 后 的 一 个 字符 c; 

口 在 符号 表 中 将 stc (连接 s 和 c ) 的 值 设 为 下 一 个 编码 值 。 

在 后 面 的 几 步 中 ,我 们 需要 继续 查看 输入 中 的 下 一 个 字符 才能 构造 字典 中 的 下 一 个 条 目 ， 因 
此 将 这 个 字符 c 称 为 前 瞻 (lookahead ) 字符 。 现 在 ， 当 用 尽 了 编码 值 ( 将 FF 赋予 了 某 个 字符 串 ) 

839| 之 后 暂时 只 能 停止 向 符号 表 中 添加 新 的 条 目 一 一 我 们 会 在 稍 后 讨论 其 他 策略 。 

5.5.6.12 ”LZW 压缩 举例 

下 表 所 示 的 是 LZW 算法 压缩 样 例 输入 A BRA CADABRABRA BR 人 A 的 详细 过 程 。 
对 于 前 7 个 字符 ， 匹 配 的 最 长 前 级 仅 为 1 个 字符 ， 因 此 输出 这 些 字符 所 对 应 的 编码 ， 并 将 编码 81 
到 87 和 产生 的 7 个 两 个 字符 的 字符 串 相关 联 。 然 后 我 们 发 现 AB 匹配 了 输入 的 前 级 (于 是 输出 81 
并 将 ABR 添加 到 符号 表 中 ) ， 然 后 是 RA (输出 83 并 添加 RAB ) ，BR (输出 82 并 添加 BRA ) 和 ABR 
(输出 88 并 添加 ABRA ) ， 最 后 只 剩 下 A (输出 41， 请 见 图 5.5.17 ) 。 





输入 A B R A € A D A B R A B R A B R A EOF 
匹配 | 
输出 41 42 52 41 43 41 44 81 83 82 88 41 80 


RAB 89 RAB 89 
BR A 8A BRA 8A 
ABR A 8B ABRA 8B 


图 5.5.17 LZW 算 法 压缩 A BRACADABRABRABRA 
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输入 为 17 个 7 位 的 ASCI 字 符 ， 总 共 119 位 ; 输出 为 12 个 8 位 的 编码 ， 总 共 % 位 一 一 压缩 
比 为 82%， 即 使 这 只 是 个 很 小 的 例子 。 
5.5.6.13 ”LZW 的 单词 查找 树 

LZW 压缩 算法 含有 两 种 符号 表 操 作 : 

口 找到 输入 和 符号 表 的 所 有 键 的 最 长 前 级 匹配 ; 

口 将 匹配 的 键 和 前 瞻 字 符 相连 得 到 一 个 新 键 ， 将 新 键 和 下 一 个 编码 关联 并 添加 到 符号 表 中 。 

5.2 节 中 介绍 的 单词 查找 树 数据 结构 完全 是 为 这 些 
操作 量 身 定做 的 。 对 于 上 一 个 示例 ， 它 的 单词 查找 树 表 
示 如 图 5.5.18 所 示 。 要 查找 最 长 前 级 匹配 ， 从 根 结 点 开 
始 遍 历 树 ， 按 照 结 点 的 标签 和 输入 字符 匹配 ; 在 添加 一 
个 新 编码 时 ， 先 创建 一 个 用 新 编码 和 前 瞻 字 符 标记 的 结 
点 并 将 它 和 查找 结束 的 结 点 相关 联 。 在 实践 中 ， 为 了 节 
省 空间 我 们 使 用 的 是 5.2 节 中 介绍 的 三 向 单词 查找 树 。 
值得 一 提 的 是 这 里 对 单词 查找 树 的 使 用 与 霍 夫 曼 编码 
的 不 同 : 对 于 霍 夫 曼 编 码 ， 使 用 单词 查找 树 是 因为 任意 
编码 都 不 会 是 其 他 编码 的 前 级 ; 但 对 于 LZW 算法 ,使 
用 单词 查找 树 是 因为 每 个 由 输入 字符 串 得 到 的 键 的 前 。 图 5.5.18 LZW 算法 的 编译 表 的 单词 查找 
级 也 都 是 符号 表 中 的 一 个 键 。 Wh 0 
5.5.6.14 LZW 压缩 的 展开 

如 示例 所 示 ，LZW 压缩 的 展开 所 需 的 输入 是 一 系列 8 位 编码 ， 而 输出 则 是 一 个 7 位 ASCII 字 
符 组 成 的 字符 串 。 在 展开 时 ， 我 们 会 维护 一 张 关 联 字 符 串 和 编码 值 的 符号 表 ( 这 张 表 的 逆 表 是 压缩 
时 所 用 的 符号 表 ) 。 在 这 张 表 中 加 入 00 到 7F 和 所 有 单个 ASCII 字符 的 字符 串 的 关联 条 目 ， 将 第 一 
个 未 关联 的 编码 值 设 为 81 ( 80 保留 为 文件 结尾 的 标记 ) ， 将 保存 了 当前 字符 串 的 变量 val 设 为 含 
有 第 一 个 字符 的 字符 串 ， 在 遇 到 编码 80 (文件 结束 ) 之 前 不 断 进 行 以 下 操作 : 

口 输出 当前 字符 串 val; 

口 从 输入 中 读 取 一 个 编码 x; 

口 在 符号 表 中 将 s 设 为 和 x 相关 联 的 值 ; 

口 -在 符号 表 中 将 下 一 个 未 分 配 的 编码 值 设 为 valt+c， 其 中 c 为 s 的 首 字 母 ; 

口 将 当前 字符 串 val 设 为 s。 

这 个 过 程 比 压缩 更 加 复杂 ， 原 因 来 自 于 前 脆 字 符 : 需要 读 取 下 一 个 编码 来 得 到 和 它 相 关联 的 字 
符 串 的 首 字母 , 这 使 得 整个 过 程 不 同步 。 对 于 前 7 个 编码 , 只 需要 在 符号 表 中 查找 并 输出 相应 的 字符 ， 
然后 多 读 取 一 个 字符 并 在 符号 表 中 添加 一 个 两 个 字符 的 字符 串 的 条 目 。 这 和 之 前 是 相同 的 。 然 后 读 
到 81 (输出 AB 并 向 符号 表 中 添加 ABR ) ， 然 后 是 83 ( 输出 RA 并 添加 RAB ) ，82 (输出 BR 并 添加 
BRA ) ，88 ( 输出 ABR 并 添加 ABRA ) ， 然 后 只 剩 下 41。 最 终 会 遇 到 文件 结束 的 标记 80 ( 因此 输出 A) 。 

这 个 过 程 结 束 后 ， 就 已 经 如 期 写 出 了 原始 的 输入 ， 并 且 构 造 了 一 张 和 压 缩 时 相同 的 符号 表 ( 只 是 键 
和 值 的 位 置 对 调 了 , 请 见 图 5.5.19 ) 。 注 意 , 我 们 也 可 以 使 用 一 个 简单 的 字符 串 数 组 来 表示 符号 表 ， 
索引 为 编码 。 





输入 41 42 52 41 43 41 44 81 83 82 88 


1 89 


图 5.5.19 LZW 算法 对 41 42 52 41 43 41 


R A B R 


RA B 
8A BR A 
8B ABR A 


44 81 83 82 88 41 80 的 展开 


算法 5.11 LZW 算法 的 压缩 
public class LZW 
{ 
private static final int R = 256; // 输入 字符 数 
private static final int L = 4096; // 编码 总 数 =2A12 
private static final int W = 12; // 编码 宽度 
public static void compress() 
和 
String input = BinaryStdIn.readString() ; 
TST<Integer> st = new TST<Integer>(); 
for (Cint 1 sa 0 eR Tan) 
st PutC ” Cehar) 1, 1)5 
int code = R+1; // R 为 文件 结束 (EOF) 的 编码 
while (input.length() > 0) 
{ 
String s = st.longestPrefix0f(input); // 找到 匹配 的 最 长 前 级 
BinaryStdOut.write(st.get(s), W); // 打印 出 S 的 编码 
int t = s.length(); 
if (t < input.length() && code < L)  // 将 s 加 入 符号 表 
st.put(input.substring(0, t + 1), code++); 
input = input.substring(t); // 从 输入 中 读 取 S 
} 
BinaryStdOut .write(R, W); // 写 入 文件 结束 标记 
BinaryStdOut.close(); 
} 
public static void expand() 
// 请 见 算法 5.11 ( 续 ) 
} 


Lempel-Ziv-Welch 数据 压缩 算法 的 这 份 实现 的 输入 为 8 位 的 字 节 流 ， 输 出 为 12 位 编码 ， 适 用 于 任意 
大 小 的 文件 。 对 于 较 小 的 样 例 输入 , 它 所 产生 的 编码 和 在 正文 中 所 讨论 的 类 似 : 单字 符 的 编码 的 开头 为 0， 
其 他 编码 从 100 开始 。 
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% more abraLZW.txt 
ABRACADABRABRABRA 


% java LZW - < abraLZw.txt | java HexDump 20 
04 10 42 05 20 41 04 30 41 04 41 01 10 31 02 10 80 41 10 00 
160 位 


5.5.6.15 ”特殊 情况 

在 刚才 描述 的 过 程 中 ， 存 在 这 一 个 小 小 的 问题 。 常 常 只 有 基于 以 上 描述 实现 了 这 个 过 程 的 同学 
(以 及 有 经 验 的 程序 员 ! ) 才能 发 现 它 。 这 个 问题 就 是 前 瞻 过 程 所 得 到 的 字符 可 能 和 当前 子 字 符 串 
的 开头 字符 相同 ， 如 图 5.5.20 所 示 。 在 这 个 例子 中 ， 输 入 字符 串 : 

ABABABA 
如 图 5.5.20 上 方 所 示 ， 被 压缩 得 到 的 输出 编码 为 : 
41 42 81 83 80 

在 展开 时 ， 首 先 会 得 到 编码 41 并 输出 A， 然 
后 读 取 42 得 到 前 瞻 字 符 并 将 AB 和 81 插入 符号 表 ; 给 CA B A B A B A 
输出 42 所 对 应 的 B， 读 取 81 得 到 前 瞻 字 符 并 将 


BA 和 82 插入 符号 表 ; 输出 81 所 对 应 的 AB。 到 “2 下 a 
目前 为 止 事 情 进 展 得 不 错 。 但 当 我 们 接 下 来 取得 AB 81 旭 拨 

了 编码 83 并 希望 得 到 前 瞻 字 符 时 ， 就 被 卡 住 了 ， mA ABA 
因为 读 取 编码 所 要 补 全 的 符号 表 条 目 正 是 83 ! 幸 e 

运 的 是 ,检查 ( 只 有 在 读 取 的 编码 和 需要 完成 的 i a 

编码 条 目 相 同时 才 会 出 现 ) 并 修正 ( 此 时 ,前瞻 入 而 Ds 
字符 必然 是 当前 字符 串 的 首 字 母 ， 因 为 它 就 是 下 A i 

个 将 被 输出 的 字符 ) 这 种 情况 并 不 困难 。 在 这 个 eo? En 
例子 中 ， 前 瞻 字 符 必 然 是 A(ABA 的 首 字母 ) 。 因 下 个 输出 字符 -一 即 前 蜂 字 符 

此 ， 下 一 个 被 输出 的 字符 串 和 符号 表 中 83 到 值 都 图 5.5.20 LZW 算法 的 扩展 : 特殊 情况 
是 ABA。 


5.5.6.16 ”实现 

经 过 这 些 描述 之 后 ， 实 现 LZW 编码 就 很 简单 了 ， 如 算法 5.11 所 示 ( expand() 方法 的 实现 请 
见 算法 5.11( 续 ) ) 。 这 段 实现 接受 8 位 字 节 流 作 为 输入 ( 因此 能 压缩 任意 文件 ， 而 不 仅仅 是 字符 
串 ) ， 并 产生 12 位 编码 的 输出 流 〈 因 此 字典 会 非常 大 ， 压 缩 率 也 会 更 好 ) 。 这 些 值 指定 在 ( final 
修饰 的 ) 实例 变量 R、L 和 W 中 。 在 compress() 方法 中 使 用 了 一 棵 三 向 单词 查找 树 ( 请 见 5.2 节 ) |843 
来 表示 编译 表 (〈 利用 单词 查找 树 来 支持 高 效 的 1ongestPrefix0f() 操作 ) ， 在 expand(0) 方法 中 
使 用 了 一 个 字符 串 数 组 来 表示 逆向 编译 表 。 这 样 ，compress() 和 expand0) 方法 的 代码 就 不 完全 
与 正文 中 的 描述 一 一 对 应 了 。 这 些 方法 非常 高 效 。 对 于 某 些 文件 ， 我 们 还 可 以 通过 在 编译 表 满 时 将 
其 清空 并 重用 全 部 编码 来 改进 它们 。 这 些 改进 以 及 评估 它们 的 性 能 所 需 的 实验 都 留 作 本 节 最 后 的 
练习 。 
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算法 5.11 ( 续 ) ”LZW 算法 的 展开 





public static void expand() 


{ 
String[] st = new String[L]; 


int i; // 下 一 个 待 补 全 的 编码 值 


for 人 = 07 4 < Ri 14+) // 用 字符 初始 化 编译 表 
stlil eae" ww Cehary 1s 
St[i++] = " "; // (未 使 用 ) 文件 结束 标记 (EOF) 的 前 瞻 字 符 


int codeword = BinaryStdIn.readInt(W); 
String val = st[codeword] ; 
while (true) 


{ 
BinaryStdOut .write(val); // 输出 当前 子 字符 串 
codeword = BinaryStdIn.readInt(W); 
if (codeword == R) break; 
String s = st[codeword]; // 获取 下 一 个 编码 
if (i == codeword) // 如 果 前 瞻 字 符 不 可 用 
s = val + val.charAt(0); 从 根据 上 一 个 字符 串 的 首 字母 得 到 编码 的 字符 串 
Ci) 
st[i++] = val + S.CharAt(0); // 为 编译 表 添 加 新 的 条 目 
val = s; // 更 新 当前 编码 
} 


BinaryStdOut.close(); 


这 段 代码 实现 了 Lempel-Ziv-Welch 算法 的 展开 。 展 开 比 压缩 更 加 复杂 ， 因 为 需要 从 下 一 个 编码 中 获 
取 前 瞻 字 符 ， 并 且 存 在 前 瞻 字 符 可 能 不 可 用 的 复杂 情况 〈 请 见 正文 ) 。 


% java LZW - < abraLZW.txt | java LZW + 
ABRACADABRABRABRA 


% more ababLZW.txt 
ABABABA 


% java LZW - < ababLZW.txt | java LZW + 
ABABABA 


和 以 前 一 样 , 请 花 一 点 时 间 仔 细 研 究 程序 和 图 5.5.21 给 出 的 LZW 算法 压缩 的 实例 。 十 几 年 以 来 ， 
它 已 经 被 证 明 为 是 一 个 多 用 途 高 效率 的 压缩 算法 。 
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病毒 (50 000 位 ) 


% java Genome - < genomev | rus.txt | java FS 512 25 





12 536 位 


% J Lz -< ee bus: bt | java RictureDump 2 36 





18 232 科 < 一 世间 钞 姑 这 各 纺 隐 : ies 
位 图 (6144 位 ) 


% java RunLength - < q64x96.bin | java BinaryDump 0 
2296 位 


% java LZW - < q64x96.bin | java BinaryDump 0 
2824 位 一 效果 不 如 游程 编码 ， 因 为 文件 太 小 


《 双 城 计 》 全 文 (5 812 552 位 ) 
% java BinaryDump 0 < tale.txt 
5 812 552 位 


% java Huffman - < tale.txt | java BinaryDump 0 
3 043 928 位 


% java LZW - < tale.txt | java BinaryDump 0 
2 667 952 位 ”< 一 压缩 率 2667952/5812552 = 46% (已 知 最 好 成 绩 ) 


844 
图 5.5.21 采用 12 位 编码 的 LZW 算法 对 各 种 文件 的 压缩 和 展开 845 
图 答疑 
问 ” 为 什么 需要 BinaryStdIn 和 BinaryStdOut ? 
答 这 是 在 便利 性 和 效率 之 间作 出 的 一 个 平衡 。StdIn 每 次 能 够 处 理 8 位 数据 ， 而 BinaryStdIn 必须 处 
理 每 一 位 数据 。 大 多 数 应 用 程序 处 理 的 都 是 字 节 流 ， 但 数据 压缩 是 个 例外 。 
问 ”为 什么 需要 close() 方法 ? 
答 有 这 个 要 求 的 是 因为 标准 输出 流 是 一 个 字 节 流 ， 因 此 BinaryStd0ut 需要 知道 何 时 将 最 后 一 个 字 节 
对 齐 并 输出 
问 能够 将 StdIn 和 BinaryStdIn 混用 吗 ? 
答 ”最 好 不 要 这 样 。 因 为 它们 都 和 系统 以 及 具体 的 实现 有 关 ， 谁 也 不 知道 会 出 现 什 么 情况 。 我 们 的 实现 会 抛 
出 一 个 异常 。 但 从 另 一 方面 来 说 , 混用 Stdout 和 BinaryStd0ut 没有 问题 (我 们 的 代码 就 这 么 使 用 的 ) 。 
问 为 什么 在 Huffman 类 中 Node 类 是 静态 的 ? 
答 ”我 们 将 所 有 数据 压缩 算法 都 组 织 成 了 静态 方法 的 集合 ， 而 没有 实现 任何 数据 结构 。 
问 ”我 能 保证 数据 压缩 算法 至 少 不 会 将 比特 流 还 长 吗 ? 
答 你 可 以 直接 把 输入 复制 到 输出 ， 但 仍然 需要 某 种 标记 来 说 明 不 需要 使 用 任何 标准 的 数据 压缩 方法 就 
可 以 使 用 它 。 某 些 商 业 数 据 压 缩 程序 有 时 会 作出 这 种 保证 ， 但 实际 上 这 种 保证 很 脆弱 并 且 远 远 不 具 
备 通用 性 。 事 实 上 ， 大 多 数 数 据 压 缩 算法 甚至 都 做 不 到 我 们 对 命题 $ 的 第 一 种 证 明 方法 的 第 二 步 : 
极 少 有 算法 能 够 进一步 压缩 其 自身 产生 的 比特 字符 串 。 846 


请 看 下 表 所 示 的 4 种 变 长 编码 。 哪 些 编码 是 无 前 缀 的 ”哪些 编码 的 解码 方式 是 唯一 的 ?对 于 解码 
方式 唯一 的 编码 ， 请 给 出 1000000000000 的 编码 结 


符号 编码 1 编码 2 编码 3 编码 4 
A 0 0 1 1 
B 100 1 01 01 
C 10 00 001 001 
D 11 11 0001 000 


给 出 一 个 非 前 级 码 但 解码 方式 又 是 唯一 的 编码 。 

答 : 任意 无 后 级 的 编码 都 是 解码 方式 唯一 的 编码 。 

给 出 一 个 即 非 前 级 码 又 非 后 级 码 且 解码 方式 唯一 的 编码 。 

答 : {0011, 011, 11, 1110} 或 {01, 10, 011, 110} 

{01, 1001, 1011, 111, 1110} 和 {01, 1001, 1011, 111, 1110} 的 解码 方式 是 唯一 的 吗 ? 如 果 不 是 ， 找 出 
一 条 可 以 用 两 种 方式 解码 的 字符 串 。 

使 用 RunLength 处 理 本 书 网 站 上 的 文件 q128x192.bin。 被 压缩 后 的 文件 含有 多 少 比 特 ? 

将 个 符号 a 编码 需要 多 少 比特 ( 作为 入 的 函数 ) ?NN 个 序列 abc 呢 ? 

给 出 用 游程 编码 、 霍 夫 曼 编码 、LZW 编码 压缩 字符 串 a,aa,aaa,aaaa, ...( 含 有 N 个 a 的 字符 串 ) 
的 结果 ， 以 N 的 函数 表示 压缩 比 。 

给 出 用 游程 编码 、 霍 夫 曼 编码 、LZW 编码 压缩 字符 串 ab,abab,ababab,abababab,... (将 ab 
重复 入 次 得 到 的 字符 串 ) 的 结果 ， 以 N 的 函数 表示 压缩 比 。 

估计 游程 编码 、 霍 夫 曼 编码 和 LZW 编码 处 理 长 度 为 N 的 随机 ASCII 字符 串 ( 任意 位 置 都 有 独立 
均等 的 几率 出 现任 意 字 符 ) 的 压缩 比 。 

按照 正文 中 的 示意 图 的 样式 显示 使 用 Huffman 人 处理 字 符 串 it was the age of foolishness 
时 霍 夫 曼 编码 树 的 构造 过 程 。 压 缩 后 的 比特 流 需 要 多 少 比 特 ? 

如 果 所 有 字符 均 来 自 一 个 只 有 两 个 字符 的 字母 表 ， 该 字符 串 的 霍 夫 曼 编码 将 会 是 什么 ?给 出 这 样 
的 一 个 长 度 为 的 字符 串 ， 使 得 霍 夫 曼 编码 得 到 的 结果 最 长 。 

假设 所 有 符号 出 现 的 概率 均 为 2 的 负 若 干 次 方 ， 描 述 相应 的 霍 夫 曼 编码 。 

假设 所 有 符号 出 现 的 概率 均 相等 ， 描 述 相 应 的 霍 夫 曼 编码 。 

假设 需要 编码 的 所 有 字符 的 出 现 频率 均 不 相同 。 此 时 的 霍 夫 曼 编码 树 是 唯一 的 吗 ? 

只 需 扩 展 霍 夫 曼 算 法 即 可 有 效 地 将 双 位 字符 编码 ( 使 用 四 向 树 ”) 。 这 么 做 的 主要 优点 和 缺点 是 
什么 ? 

以 下 输入 经 过 LZW 编码 后 的 结果 是 什么 ? 

aTOBEORNOTTOBE 

bYABBADABBADABBADOO 

cAAAAAAAAAAAAAAAAAAAAA 





中 每 个 结 点 都 含有 4 条 链接 。 一 一 译 者 注 
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5.5.17 总结 LZW 编码 中 需要 特别 注意 的 情况 。 
解答 : 每 当 遇 到 形 如 cScsc 的 字符 串 时 都 会 出 现 这 种 情况 , 其 中 c 是 一 个 符号 而 S 是 一 个 字符 串 ， 
字典 中 已 经 含有 cS 但 没有 cSc。 

5.5.18 设 到 是 第 上 个 斐 波 那 契 数 。 假 设 有 一 个 符号 序列 ， 其 中 第 大 个 符号 的 频率 为 环 。 注 意 ， 
五 +Ft…+FW=Fww-1。 给 出 相应 的 霍 夫 曙 编码。 提示: 最 长 编码 的 长 度 为 N-1。 

5.5.19 证明， 对 于 给 定 的 入 个 符号 的 集合 ， 至 少 存在 2” 种 不 同 的 霍 夫 曼 编码 。 

5.5.20 ”给 出 一 种 霍 夫 曼 编码 ， 使 得 输出 中 的 0 的 出 现 频率 比 1 要 高 得 多 。 
答 : 如 果 字 符 A 出 现 了 100 万 次 而 B 只 出 现 了 一 次 ,那么 将 A 的 编码 设 为 0，B 的 编码 设 为 1 即 可 。 |848 

5.5.21 请 证 明 在 任意 霍 夫 曼 编码 中 ， 最 长 的 两 个 编码 的 长 度 必然 是 相等 的 。 

5.5.22 ”请 证 明和 霍 夫 曼 编码 的 以 下 性 质 ， 如 果 符 号 i 的 出 现 频 率 大 于 符号 j， 那 么 符号 i 的 编码 长 度 将 会 
小 于 等 于 符号 j 的 编码 长 度 。 

5.5.23 ”如 果 将 用 霍 夫 曼 编码 得 到 的 字符 串 看 作 由 5 位 字符 组 成 的 字符 流 并 继续 用 霍 夫 曼 编码 处 理 它 ， 
结果 将 会 是 什么 ? 

5.5.24 ”按照 正文 中 示意 图 的 样式 显示 使 用 LZW 编码 处 理 以 下 字符 串 时 所 构造 的 编码 树 以 及 整个 压缩 和 
展开 的 过 程 。 


it was the best of times it was the worst of times 


Co 
人 
Ro 


图 提高 是 
5.5.25 定 长 定 宽 的 编码 。 实 现 一 个 使 用 定 长 编码 的 RLE 类 来 压缩 不 同 字符 较 少 的 ASCII 字 节 流 ， 将 编 
码 输出 为 比特 流 的 一 部 分 。 在 compress 0 方法 用 一 个 alpha 字 符 串 保存 输入 中 所 有 不 同 的 字母 ， 
用 它 得 到 一 个 Alphabet 对 象 以 供 compress (0) 方法 使 用 。 将 alpha 字符 串 ( 8 位 编码 再 加 上 它 
的 长 度 ) 添加 到 压缩 后 的 比特 流 的 开头 。 修 改 expand0Q 方法 ， 在 展开 之 前 先 读 取 它 的 字母 表 。 
5.5.26 重建 LZW 字典 。 修 改 LZW 算法 ， 当 字典 饱和 时 将 其 清空 。 这 种 方式 适合 某 些 应 用 程序 ， 因 为 
它 能 更 好 地 适应 输入 中 的 字符 变化 。 
5.5.27 较 长 的 重复 。 估 计 游 程 编码 、 霍 夫 曼 编码 和 LZW 编码 处 理 长 度 为 2N 的 一 条 字符 串 的 压缩 率 ， 
该 字符 串 由 长 度 为 的 一 条 随机 ASCII 字符 串 ( 请 见 练习 5.5.9 ) 重复 而 成 。 850 
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在 现代 社会 中 ,计算 机 设备 无 处 不 在 ,在 过 去 的 几 十 年 中 ,我 们 世界 中 的 电子 设备 还 是 一 片 空白 ， 
但 现在 它们 已 经 成 为 数 十 亿 人 日 常 必 备 的 工具 。 今天 的 手机 其 至 都 比 30 年 前 只 有 少数 人 才 有 权 使 
用 的 超级 计算 机 强大 若干 个 数量 级 。 这 些 设备 高 效 工作 的 背后 都 离 不 开 算法 ， 而 其 中 的 一 些 算 法 本 
书 中 也 有 所 讨论 。 这 是 为 什么 呢 ? 因为 适 者 生存 。 可 扩展 的 〈 线 性 的 和 线性 对 数 级 别 的 ) 算法 是 这 
个 过 程 的 核心 并 证 明了 高 效 算法 的 重要 性 。20 世纪 60 年 代 和 70 年 代 的 一 些 研 究 者 用 这 些 算法 为 我 
们 的 今天 打下 了 基础 ,他 们 知道 , 可 扩展 的 算法 是 未 来 的 关键 , 而 过 去 几 十 年 的 发 展 也 证 明了 这 一 点 。 
现在 ， 基 础 设施 已 经 完备 ， 人 们 已 经 开始 利用 它们 达到 各 种 目的 。 正 如 B.Chazelle 所 说 ，20 世纪 是 
方程 的 世纪 ,但 21 世纪 是 算法 的 世纪 。 

本 书 中 讨论 的 基础 算法 只 是 一 个 开始 。 当 算法 能 够 成 为 大 学 中 的 一 门 独立 学 科 时 ， 这 一 天 就 快 
要 到 来 了 (也 许 已 经 来 了 ) 。 在 商业 应 用 、 科 学 计算 、 工 程 、 运 筹 学 和 其 他 无 数 有 待人 们 探索 的 领 
域 中 ， 高 效 的 算法 都 能 使 原来 不 可 能 解决 的 问题 得 到 解决 。 本 书 的 重点 是 学 习 重 要 而 实用 的 算法 。 
在 本 章 中 ,我们 会 沿 着 这 条 路 继续 讨论 几 个 示例 ， 它 们 能 够 说 明 已 经 学 过 的 一 些 算法 在 高 级 实践 情 
景 中 的 作用 。 (还 包括 一 些 学 习 算法 的 方法 。) 为 了 说 明 算 法 的 影响 范围 ， 我 们 首先 列 出 算法 的 几 
个 重要 的 应 用 领域 ， 然 后 详细 讨论 几 个 有 代表 性 的 示例 并 介绍 算法 的 相关 理论 来 说 明 应 用 的 深度 。 
不 过 对 于 这 本 大 厚 书 来 说 ， 在 最 后 涉及 的 这 两 个 主题 都 是 介绍 性 的 ， 并 不 全 面 ， 实 际 生活 中 还 有 许 
多 同样 广泛 的 领域 、 同 样 重要 的 应 用 场景 、 同 样 有 影响 力 的 具体 问题 。 
商业 应 用 

互联 网 的 出 现 加 强 了 算法 在 商业 应 用 软件 中 的 核心 地 位 。 人 们 经 常 使 用 的 所 有 应 用 都 得 益 于 我 
们 已 经 学 过 的 许多 经 典 算法 : 

口 基础 设施 ( 操作 系统 、 数 据 库 、 通 信 ) ; 

口 应 用 程序 ( 电子 邮件 、 文 档 处理 、 数 码 照片 ) ; 

口 出 版 (书籍 、 杂 志 、 网 络 内 容 ) ; 

口 网 络 (无线 网 络 、 社 交 网 络 、 互 联网 ) ; 

口 交易 处 理 ( 金融、 零售、 网 络 搜索 ) 。 

本 章 中 将 会 讨论 一 个 有 代表 性 的 示例 ， 即 B- 树 。 它 是 为 20 世纪 60 年 代 的 大 型 机 发 明 的 一 种 
复杂 的 数据 结构 ， 但 今天 它 仍然 是 现代 数据 库 系 统 的 基础 结构 。 此 外 ， 还 将 讨论 用 于 文本 索引 的 后 
组 数组 。 
科学 计算 

自从 冯 … 诺 依 曼 在 1950 年 发 明了 归并 排序 之 后 , 算法 在 科学 计算 领域 逐渐 起 到 了 重要 的 作用 。 
今天 的 科学 家 需要 处 理 大 量 的 实验 数据 。 他 们 在 同时 使 用 数学 模型 和 计算 模型 来 理解 自然 世界 ， 
包括 : 
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口 数学 计算 〈 多 项 式 、 和 矩阵 、 微 分 方程 ) ; 

口 数据 处 理 (实验 结果 和 观测 资料 ， 特 别 是 基因 组 学 ) ; 

口 计算 模型 和 模拟 。 

这 些 任务 都 可 能 需要 大 量 复 杂 的 海量 数据 计算 。 在 科学 计算 领域 ， 本 章 中 会 详细 讨论 的 一 个 
经 典 示 例 就 是 事件 驱动 模拟 问题 。 它 的 思想 是 维护 一 个 复杂 的 真实 世界 的 模型 并 根据 时 间 控 制 模 
型 中 发 生 的 变化 。 这 种 基础 方法 有 着 非常 多 的 应 用 。 此 外 还 将 讨论 一 个 基因 计算 领域 的 基础 数据 
处 理 问 题 。 


工程 学 

现代 工程 学 的 基础 是 技术 ， 而 现代 技术 的 基础 是 计算 机 。 因 此 ， 算 法 能 够 发 挥 重 要 作用 的 方面 
包括 : 

口 数学 计算 和 数据 处 理 ; 


口 计算 机 辅助 设计 和 生产 ; 

口 基于 算法 的 工程 设计 ( 网 络 、 控 制 系统 ) ; 

口 图 像 和 其 他 医学 系统 。 

工程 师 和 科学 家 使 用 的 许多 工具 和 方法 都 是 相同 的 。 例 如 ， 科 学 家 用 计算 模型 和 模拟 来 理解 自 
然 世 界 ; 而 工程 师 用 计算 模型 和 模拟 来 设计 、 建 造 并 控制 他 们 所 制造 的 各 种 产品 。 
运筹 学 

运筹 学 领域 的 研究 者 和 实践 者 开发 了 各 种 数学 模型 并 用 它们 解决 了 许多 问题 ， 包 括 : 

口 任务 调度 ; 

口 决策 ; 

口 资源 分 配 。 

4.4 节 中 的 最 短路 径 问 题 就 是 一 个 经 典 的 运筹 学 问题 。 本 章 会 再 次 讨论 它 并 介绍 最 大 流量 问题 。 
我 们 会 展示 规约 的 重要 性 并 讨论 它 对 于 问题 解决 (problem-solving ) 的 通用 模型 的 影响 ， 特 别 是 对 
运筹 学 中 核心 的 线性 规划 模型 的 影响 。 

算法 在 计算 机 科学 的 各 个 子 领域 中 都 有 着 重要 的 地 位 ， 它 的 应 用 领域 包括 ， 但 绝对 不 局 限于 : 

口 计算 几何 ; 

口 密码 学 ; 

口 数据 库 ; 

口 编程 语言 与 系统 ; 

口 人 工 智能 。 

在 所 有 领域 中 ， 说 明 问 题 并 找到 有 效 算法 和 数据 结构 来 解决 问题 都 是 非常 重要 的 。 我 们 已 经 学 
过 的 部 分 算法 是 可 以 直接 使 用 的 。 更 重要 的 是 ， 本 书 的 核心 内 容 ， 也 就 是 设计 、 实 现 和 分 析 算 法 的 
一 般 方法 在 所 有 这 些 领域 中 都 已 经 被 成 功 地 验证 过 。 这 种 效应 已 经 从 计算 机 科学 扩散 到 了 许多 其 他 
领域 ,包括 体育 、 音 乐 、 语 言 学 、 金 融 、 神 经 科学 ， 等 等 。 

我 们 现在 已 经 学 习 了 许多 重要 且 实 用 的 算法 ， 那 么 理解 它们 之 间 的 相互 关系 就 变 得 很 必要 了 。 
在 本 章 的 (也 是 本 书 的 ! ) 结尾 我 们 会 简要 介绍 计算 理论 ， 重 点 是 不 可 解 性 (intractability ) 和 
P=NP? 这 个 问题 。 它 们 仍然 是 理解 实践 中 遇 到 的 各 种 问题 的 关键 。 


6.0.1 事件 驱动 模拟 
我 们 的 第 一 个 示例 是 一 个 基础 的 科学 应 用 : 按照 弹性 碰撞 的 原理 模拟 粒子 系统 的 运动 。 科 学 家 
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通过 这 个 系统 可 以 理解 和 预测 物理 系统 的 性 质 。 这 个 模型 可 以 模拟 气体 中 分 子 的 运动 、 化 学 反应 的 
动态 过 程 、 原 子 扩散 、 最 密 堆 积 问题 ( sphere packing ) 、 行 星 的 环 的 稳定 性 、 某 些 元 素 的 相 变 、 一 
维 自 引 力 体 系 前 向 阵 面 传播 技术 等 许多 问题 。 它 可 应 用 的 范围 从 分 子 运 动 中 的 微小 亚 原 子粒 子 到 天 
体 物理 学 中 巨大 的 星体 对 象 。 

讨论 这 个 问题 需要 一 些 高 中 物理 知识 、 一 些 软 件 工 程 的 知识 和 一 些 算法 知识 。 我 们 把 大 部 分 和 
物理 有 关 的 内 容留 作 练习 ， 而 主要 关注 使 用 基础 的 算法 工具 ( 基于 堆 的 优先 队列 ) ， 以 处 理 它 的 一 
个 实际 应 用 ， 将 不 可 能 的 计算 变 为 可 能 。 
6.0.1.1 刚性 球体 模型 

首先 介绍 一 个 理想 模型 ， 它 描述 的 是 原子 和 分 子 在 含有 以 下 性 质 的 容器 中 的 运动 : 

口 运动 的 粒子 与 墙 以 及 互相 之 间 的 碰撞 是 弹性 的 ; 

口 每 个 粒子 都 是 一 个 已 知 位 置 、 速 度 、 质 量 和 直径 的 球体 ; 

口 不 存在 其 他 外 力 。 

这 个 简单 的 模型 在 统计 力学 这 个 既 与 宏观 现象 ( 例如 温度 和 压力 ) 有 关 又 与 微观 现象 ( 例如 单 
个 原子 和 分 子 的 运动 ) 有 关 的 学 科 中 十 分 重要 。 麦 克 斯 维尔 和 玻 尔 效 曼 使 用 这 个 模型 得 到 了 由 温度 
的 函数 表示 的 相互 碰撞 的 分 子 的 速度 分 布 , 爱 因 斯 坦 用 这 个 模型 解释 了 花粉 颗粒 在 水 中 的 布朗 运动 。 
不 存在 其 他 外 力 的 假设 意味 着 粒子 在 碰撞 之 前 是 在 做 匀速 直线 运动 。 我 们 也 可 以 通过 添加 其 他 作用 
力 来 扩展 这 个 模型 。 例 如 ,如果 加 上 摩擦 力 和 自 旋 ， 那 就 可 以 更 加 准确 地 描述 一 些 熟 悉 的 物理 运动 ， 
例如 台球 桌 上 的 台球 。 
6.0.1.2 ”时 间 驱 动 模拟 

我 们 的 主要 目标 是 维持 这 个 模型 ， 即 希望 能 够 记录 所 有 粒 
子 在 任意 时 间 内 的 位 置 和 速度 。 为 此 ， 需 要 计算 : 在 给 定 了 时 @、 
刻 1 时 的 所 有 粒子 的 位 置 和 速度 后 ， 青 给 出 dt 时 间 之 后 ， 即 未 
来 的 时 间 点 trdt 时 它们 的 位 置 和 速度 。 如 果 所 有 粒子 互相 之 间 
以 及 和 墙 的 距离 都 很 远 ， 那 么 计算 就 很 简单 了 : 因为 粒子 的 轨 
迹 是 一 条 直线 , 所 以 只 需要 用 粒子 的 速度 就 可 以 更 新 它 的 位 置 。 。 EE 
这 个 问题 的 挑战 在 于 要 考虑 碰撞 情况 。 一 种 解决 方法 叫做 时 间 和 
驱动 模拟 (请 见 图 6.0.1 ) ， 它 基于 使 用 固定 长 度 的 dt。 在 每 时 刻 t+2dt 
次 更 新 时 ， 我 们 都 需要 检查 所 有 粒子 对 ， 判 定 它 们 是 否 可 能 相 


时 刻 t+Hdt 





遇 ， 然 后 还 原 它 们 的 第 一 次 碰撞 。 此 时 ， 我 们 将 会 更 新 两 个 粒 ， s 
子 的 速度 以 反映 出 碰撞 的 结果 ( 计算 方法 会 稍 后 讨论 ) 。 在 粒 
子 数 量 很 多 时 , 这 种 方式 的 计算 量 非常 大 : 如 果 dt 是 以 秒 计 ( 一 将 时 刻 倒 回 碰撞 发 生 的 时 候 


般 为 一 秒 的 若干 分 之 一 ) ， 它 模拟 N 个 粒子 的 系统 一 秒 钟 的 运 
动 所 需 的 时 间 与 NY/dt 成 正比 。 这 种 成 本 太 昂 贵 了 ( 比 平方 级 
别 的 算法 更 高 ) 一 一 在 一 般 的 应 用 中 ，N 都 会 非常 大 而 dt 会 非 
常 小 。dt 的 问题 在 于 如 果 它 太 小 ， 计 算 量 就 太 高 ， 但 如 果 它 太 
大 ， 那 就 可 能 错过 许多 次 碰撞 ， 请 见 图 6.0.2。 图 6.0.1 以 时 间作 为 驱动 的 模拟 
6.0.1.3 ”事件 驱动 模拟 

男 一 种 方法 是 仅 关注 碰撞 发 生 的 时 间 点 ， 重 点 关注 下 一 次 碰撞 ( 因为 在 此 之 前 由 速度 计算 得 到 
的 所 有 粒子 的 位 置 都 是 有 效 的 ) 。 因 此 ， 我 们 可 以 使 用 一 个 优先 队列 来 记录 所 有 事件 。 事 件 是 未 来 
的 某 个 时 间 的 一 次 潜在 的 碰撞 ， 可 能 发 生 在 两 个 粒子 之 间 ， 也 可 能 发 生 在 粒子 和 墙 之 间 。 和 每 个 事 





件 相 关联 的 优先 级 就 是 它 发 生 的 时 间 ， 因 此 当 从 优先 队列 中 
删 去 优先 级 最 低 的 元 素 时 ， 就 会 得 到 下 一 次 潜在 的 碰撞 。 
6.0.1.4 ”碰撞 预测 

我 们 如 何 才 能 识别 潜在 的 碰撞 呢 ? 粒子 的 速度 正好 提供 
了 这 个 必要 的 信息 。 例 如 ， 假 设 在 单位 空间 中 ， 在 时 刻 上 有 一 
个 半径 为 s 速度 为 (v, v,) 的 粒子 位 于 (x, 六 )。 假 设 墙 位 于 二] dt 太 大 : 可 能 错过 碰撞 
处 ,高 度 y 在 0 到 1 之 间 。 我们 感 兴趣 的 是 运动 的 横向 分 量 ， 





因此 注意 力 集中 在 位 置 的 x 分 量 x, 和 速度 的 x 分 量 w 上。 如 a 
果 尺 是 负数 ， 那么 粒子 的 轨迹 不 会 与 增 休 相交， 但 如 果 v 是 oo 

正 数 ， 那 就 存在 一 个 粒子 和 墙 的 潜在 碰撞 。 将 例子 和 墙 的 间 生 
距 (1-s-r,) 除 以 速度 的 x 分 量 (vw)， 就 可 以 得 到 粒子 和 墙 的 碰 


撞 时 间 为 d=(1-s-x)/ v 个 时 间 单 位 之 后 ， 此 时 粒子 的 位 置 将 为 图 6.0.2 ”驱动 模拟 的 主要 问题 
(1-s*”+Hwd0， 除 非 它 在 之 前 又 撞 上 了 其 他 某 个 粒子 或 者 墙 ， 请 

见 图 6.0.3。 因 此 ， 我 们 就 可 以 向 优先 队列 中 插入 一 个 优先 级 为 trat 的 条 目 ( 以 及 一 些 描述 该 示例 和 ” [856 
墙 的 碰撞 事件 的 信息 ) 。 墙 体 的 碰撞 预测 计算 都 是 类 似 的 ( 请 见 练习 6.1 ) 。 两 个 粒子 之 间 的 碰撞 也 ”|857 
是 类 似 的 ， 但 更 加 复杂 一 些 。 不 过 你 会 注意 到 这 种 计算 得 到 的 预测 结果 通常 是 不 会 碰撞 ( 比如 粒子 正 

在 向 墙 体 的 反方 向 移动 ， 或 者 两 个 粒子 的 运动 方向 相反 ) 一 一 这 种 情况 下 就 不 需要 向 优先 队列 中 插入 

任何 东西 。 为 了 处理 男 一 种 典型 情况 ， 也 就 是 预测 到 的 碰撞 距 现 在 的 时 间 太 远 时 ， 就 需要 一 个 1imit 
参数 来 指定 有 效 的 时 间 段 ， 这 样 就 可 以 忽略 时 间 晚 于 1imit 发 生 的 所 有 事件 了 。 


解 (时 间 t+at) | 
碰撞 之 后 的 速度 = ( 一,v) 
碰撞 之 后 的 位 置 =(1-s,n+ way 


预测 (时间?) 一 
dt 三 撞墙 所 需 时 间 -一 一 | 处 
= 距离 /速度 全 sa 了 的 墙 体 
=(1=s—r, )/ve 
; 
1 一 8 一 六 


一 下 
图 6.0.3 ”预测 并 解决 粒子 和 墙 体 的 一 次 碰撞 
6.0.1.5 “碰撞 计算 
当 发 生 碰撞 时 ， 我 们 需要 使 用 物理 公式 来 进行 计算 ， 以 描述 一 个 粒子 在 和 另 一 个 粒子 或 者 墙 体 
发 生 刚 性 碰撞 时 的 行为 。 在 示例 中 ， 墙 体 遇 到 了 一 面 竖 墙 。 如 果 发 生 碰撞 ， 粒 子 的 速度 将 会 从 (wyw ) 
变 为 (-w 风 ) ， 请 见 图 6.0.4。 其 他 墙 体 的 碰撞 和 它 类 似 。 两 个 粒子 的 碰撞 也 是 类 似 的 ， 在 物理 上 
这 是 不 严密 的 ,但 要 更 加 复杂 一 些 (请 见 练习 6.1 ) 。 


预测 (时间 

两 个 粒子 将 会 发 生 碰撞 ， SB 9 

除非 某 一 个 提前 通过 了 交汇 点 a 
解 (时间 t+adi) 
碰撞 之 后 两 个 粒子 
的 速度 都 会 发 生 改 变 


图 6.0.4 ”预测 并 计算 粒子 和 墙 体 的 一 次 碰撞 858 
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6.0.1.6 ”排除 无 效 事件 。 
预测 的 许多 碰撞 实际 上 都 不 会 发 生 ， 因 为 它们 被 其 他 的 碰撞 打 断 了 ， 六 粒子 向 一 面 


请 见 图 6.0.5。 为 了 处 理 这 种 情况 ， 我 们 为 每 个 粒子 维护 一 个 实例 变量 雪人 运动 
来 记录 和 它 有 关 的 碰撞 数量 。 当 从 优先 队列 中 取出 一 个 事件 来 处 理 时 ， 

我 们 会 检查 该 事件 所 涉及 粒子 的 碰撞 计数 器 在 事件 被 创建 后 是 否 已 经 更 es 

新 。 这 是 排除 无 效 碰撞 的 延 时 方法 ， 当 某 个 粒子 参与 了 一 次 碰撞 时 ， 我 ee 

们 不 会 删除 优先 队列 中 和 该 粒子 有 关 的 其 他 碰撞 ( 尽管 这 些 碰撞 事件 现 碰撞 的 粒子 


在 都 已 经 无 效 了 ) ， 而 是 会 在 之 后 遇 到 它们 时 直接 将 其 忽略 请 见 图 60.6。 。 图 60.5 可 预测 的 事件 
另 一 种 即时 的 方式 是 立刻 从 优先 队列 中 删除 所 有 与 参与 当前 事件 的 粒子 

相关 的 其 他 事件 ， 然 后 再 计算 这 些 粒子 的 新 潜在 碰撞 事件 。 这 种 方式 需要 的 优先 队列 更 加 复杂 ( 需 
要 实现 删除 操作 ， 请 见 图 6.0.7 ) 。 

以 上 讨论 了 一 些 预 备 知识 ， 这 些 都 是 对 按照 物理 定律 进行 弹性 碰撞 的 运动 粒子 执行 事件 驱动 
模拟 所 必 备 的 。 相 应 的 软件 架构 会 将 实现 封装 在 3 个 类 中 : 一 个 Particle 数据 类 型 ， 封 装 了 所 
有 和 粒子 有 关 的 计算 ; 一 个 Event 数据 类 型 来 预测 事件 ; 一 个 它们 的 用 例 Co11isionSystem 类 
用 来 完成 模拟 。 模 拟 的 核心 是 一 个 含有 所 有 事件 的 MinPQ 优先 队列 ， 按 照 时 间 排 序 。 下 面 看 一 下 
Particle、Event 和 Co11isionSystenm 的 实现 。 


7” 粒子 背 向 一 
名。 面 计 休 运动 


两 颗 运行 在 磁 撞 轨道 上 的 粒子 
> : 


y 
“ 


粒子 相互 离开 


一 个 粒子 先 于 另 一 
个 粒子 到 达 碰 挤 点 





{ 碰撞 发 生 的 
。 时 间 过 于 遥远 
859 图 6.0.6 ”可 预测 的 不 可 能 发 生 的 事件 图 6.0.7 一 次 失效 的 事件 


6.0.1.7 粒子 
练习 6.1 基于 牛顿 的 运动 学 定律 给 出 了 粒子 数据 类 型 的 实现 要 点 。 模 拟 用 例 应 该 能 够 移动 粒子 、 
画 出 粒子 并 进行 若干 和 碰撞 相关 的 计算 ， 如 表 6.0.1 中 的 API 所 示 。 
表 6.0.1 运动 的 粒子 对 象 的 API 
public class Particle 


Particle() 在 单位 空间 中 创造 一 个 新 的 随机 粒子 





public class Particle 


Particle( 


用 给 定 的 位 置 、 速 度 、 半 径 和 质量 创建 一 个 粒子 


double rx, double ry, 
double vx, double vy, 


double s， 


double mass) 


void draw() 
void 

int count(O) 
double 
double 
double 


double 


double bounceOffHorizontalWall() 


double bounceOffVerticalWall() 


move(double dt) 


timeToHit(Particle b) 
timeToHitHorizontalWallO) 
timeToHitVerticalWall() 


bounceOff(Particle b) 


画 出 粒子 


根据 时 间 的 流逝 dt 改变 粒子 的 位 置 
该 粒子 所 参与 的 碰撞 总 数 


距离 该 粒子 和 粒子 b 碰撞 所 需 的 时 间 
距离 该 粒子 和 水 平 的 墙 体 碰撞 所 需 的 时 间 
距离 该 粒子 和 垂直 的 墙 体 碰撞 所 需 的 时 间 
人 碰撞 后 该 粒子 的 速度 

碰撞 水 平 墙 体 后 该 粒子 的 速度 

碰撞 垂直 增 体 后 该 粒子 的 速度 





当 粒 子 不 在 碰撞 轨道 上 时 (这 是 很 常见 的 ) ，3 个 timeToHit*() 的 方法 都 会 返回 Double. 
POSITIVE_INFINITY。 这 些 方 法 可 以 帮助 预测 给 定 粒子 在 未 来 的 所 有 碰撞 ， 将 在 1imit 时 间 内 发 


生 的 碰撞 事件 插入 优先 队 
列 。 在 处 理 两 颗粒 子 相 撞 的 
事件 时 ， 使 用 bounceOff() 
方法 计算 两 颗粒 子 在 碰撞 之 
后 的 速度 。bounceOffF*() 
方法 用 于 处 理 粒子 和 墙 体 之 
间 的 碰撞 事件 。 
6.0.1.8 事件 

我 们 将 应 该 放 入 优先 
队列 中 的 所 有 对 象 信息 封装 
在 一 个 私有 类 之 中 (各 种 事 
件 ) 。 实 例 变量 time 记录 
的 是 事件 的 预计 发 生 时 间 ， 
实例 变量 a 和 b 保存 的 是 和 
该 事件 相关 的 粒子 。 这 里 有 
3 种 不 同类 型 的 事件 : 粒子 
和 垂直 载体 碰撞 、 粒 子 和 水 
平 墙 体 碰撞 、 粒 子 和 粒子 碰 
撞 。 为 了 平滑 动态 地 显示 运 
动 中 的 粒子 ， 我们 添加 了 第 
4 种 类 型 的 事件 ， 即 重 绘 事 


private class Event implements Comparable<Event> 


{ 


} 


private final double time; 


private final Particle a, b; 
private final int countA, countB; 


public Event(double t, Particle a, Particle b) 
{ // 创造 一 个 发 生 在 时 间 t 且 与 a 和 b 相 关 的 新 事件 


this.time = 七 ; 
this.a -A 
this.b = bs 
if (a != nul1) countA = a.count(); else countA = -1; 
if (b != nul1) countB = b.count(); else countB = -1; 
+. 
public int compareTo(CEvent .that) 
并 (this.time < that.time) return -1; 
else if (this.time > that.time) return +1; 
else return 0; 
} 
public boolean isValid() 
{ 
if (a != null && a.count() != countA) return false; 


if (b != null && b.count() != countB) return false; 


return true; 


二 


粒子 模拟 的 事件 类 
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件 。 它 的 作用 是 将 所 有 粒子 在 它们 的 当前 位 置 画 出 。 为 了 使 Event 的 实现 能 够 表示 这 4 种 类 型 的 事 
件 ， 允 许 粒子 的 值 为 空 (nu11) : 
口 a 和 bb 均 不 为 空 : 粒子 与 粒子 碰撞 ; 
口 a 非 空 而 b 为 空 : 粒子 a 和 垂直 墙 体 的 碰撞 ; 
口 a 为 空 而 b 非 空 : 粒子 b 和 水 平 墙 体 的 碰撞 ; 
口 a 和 b 均 为 空 : 重 绘 事件 ( 画 出 所 有 粒子 ) 。 
860 尽管 没有 完全 遵循 面向 对 象 编程 的 原则 ， 但 这 些 约 定 能 够 得 到 简洁 的 用 例 代 码 。 它 的 实现 如 后 
861| 面 框 注 所 示 。 
Event 类 型 实现 中 的 第 二 个 技巧 是 ， 它 维护 了 两 个 实例 变量 countA 和 countB， 以 记录 事件 创建 
时 每 个 粒子 所 参与 的 碰撞 事件 数量 。 如 果 在 将 事件 从 优先 队列 中 取出 时 该 值 没有 发 生变 化 ， 那 么 就 可 
以 继续 模拟 这 个 事件 的 发 生 。 但 如 果 在 这 个 事件 进入 优先 队列 和 离开 优先 队列 的 这 段 时 间 内 任何 计数 
器 发 生 了 变化 ， 这 个 事件 就 失效 了 ， 那 就 可 以 忽略 它 。 方 法 isValidQ 支持 用 例 代码 检查 这 种 情况 。 
6.0.1.9 ”模拟 器 代码 


有 了 封装 在 Particle 类 private void predictCollisions(Particle a, double 1imit) 
a { 
和 Event 类 中 的 运算 ,实际 if (a == nul17 return; 
模拟 所 需 的 代码 非常 少 ， 如 for (int i = 0; i1 < particles.length; i++) 
Pn he { // 将 与 Darticles[i] 发 生 碰 挤 的 事件 插入 pq 中 
CollisionSystem 的 实现 所 double dt = a.timeToHit(particles[i]); 


示 ( 请 见 框 注 “ 基 于 事件 模拟 if (t + dt <= limit) | i 
互相 碰撞 的 粒子 (框架 ) ”和 pq.insert(new Event(t + dt, a, particles[i])); 
框 注 “ 基 于 事件 模拟 互相 碰撞 double dtX = a.timeToHitVerticalWall(); 

y > ? if (t+ dtX <= 1imit) 
的 粒子 ( 主 循环 ) )。 大 多 pq.insert(new Event(t + dtX, a, null)); 
数 运 算 都 封装 在 右 侧 框 注 所 示 double dtY = a.timeToHitHorizontalWallC); 


if (t + dtY <= limit) 


的 predictCollision() 方法 pq.insert(new Event(t + dtY, null, a)); 


中 。 这 个 方法 会 计算 与 粒子 a } 
有 关 的 所 有 潜在 碰撞 ( 可 能 是 
和 另 一 个 粒子 ， 也 可 能 是 和 一 
面 墙 ) 并 将 相应 的 事件 加 入 优先 队列 中 。 
模拟 的 核心 是 框 注 “基于 事件 模拟 互相 碰撞 的 粒子 〈 主 循环 ) ”中 的 simulateQ 方法 。 我 们 
会 调用 predictCol1ision() 方法 来 初始 化 每 个 粒子 ， 将 所 有 粒子 和 墙 体 以 及 粒子 和 粒子 之 间 的 潜 
在 碰撞 加 入 优先 队列 中 ， 然 后 进入 事件 驱动 模拟 的 主 循环 ， 它 的 任务 包括 : 
口 取出 即将 发 生 的 事件 〈 时间 为 上 的 优先 级 最 小 的 事件 ) ; 
口 如 果 事 件 无 效 ， 将 它 忽略 ; 
口 按照 直线 运动 轨迹 使 所 有 粒子 运动 到 时 间 ; 
口 更 新 所 有 参与 碰撞 的 粒子 速度 ; 
口 使 用 predictCo11ision() 方法 来 预测 参与 碰撞 的 粒子 在 未 来 可 能 发 生 的 碰撞 ， 并 向 优先 
队列 中 插入 相应 的 事件 。 
这 个 模拟 过 程 可 以 作为 计算 系统 中 的 各 种 有 趣 性 质 的 基础 ， 如 练习 所 示 。 例 如 ， 我 们 所 感 兴 
的 一 种 基本 性 质 是 所 有 粒子 向 墙 体 所 施加 的 压力 。 计 算 这 种 压力 的 一 种 方法 是 记录 墙 体 和 粒子 碰撞 
的 次 数 和 动量 ( 根据 粒子 的 质量 和 速度 计算 这 个 值 很 简单 ) ， 这 样 就 很 容易 得 到 它们 的 总 量 。 温 度 
性 质 的 计算 也 是 类 似 的 。 


预测 其 他 粒子 的 碰撞 事件 





基于 事件 模拟 互相 碰撞 的 粒子 〈 框 架 ) 
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public class CollisionSystem 


人 


该 类 使 用 了 优先 队列 来 模拟 粒子 系统 随 着 时 间 的 运动 。 测 试用 例 main() 接 


private class Event implements Comparable<Event> 


LA 请 况 正 交 %1/ 沁 


private MinPQ<Event> pq; // 优先 队 页 
private double t = 0.0; // 模拟 时 钟 
private Particle[] particles; // 粒子 数组 


public CollisionSystem(Particle[] particles) 
{ this.particles = particles; } 


private void predictCollisions(Particle a, double 1imit) 
{ 入 请 见 正文 */ 1} 


public void redraw(double 1imit, double Hz) 
{ // 重 绘 事件 : 重新 画 出 所 有 粒子 
StdDraw.clearQ); 
for(Cint i = 0; i < particles.length; i++) particles[i].draw(); 
StdDraw. show(20); 
if (EE Timi 
pq.insert(new Event(t + 1.0 / Hz, null, nul11)); 
上 


public void simulate(double 1imit，double Hz) 
{ /* 请 见 后 面 的 主 循环 代码 */ 下 


public static void main(String[] args) 
StdDraw. show(0); 
int N = Integer.parseInt(args[0]); 
Particle[] particles = new Particle[N]; 


for Cint 1 专 0; 1 < Ns it) 

particles[i] = new Particle(); 
CollisionSystem system = new CollisionSystem(particles); 
system.simulate(10000, 0.5); 


受命 令 行 参数 N， 创 造 


了 N 个 随机 粒子 并 创建 了 含有 所 有 粒子 的 Co11isionSystem， 然 后 调用 simulate() 方法 模拟 系统 的 演 
化 。 其 中 的 实例 变量 分 别 保存 了 模拟 所 需 的 优先 队列 、 当 前 时 间 和 所 有 粒子 。 








基于 事件 模拟 互相 碰撞 的 粒子 〈 主 循环 ) 





public void simulate(double 1imit，double Hz) 


{ 


pq = new MinPQ<Event>() ; 

for (int i = 0; i < particles.length; i++) 
predictCollisions(particles[i], 1imit); 

pq.insert(new Event(0，nu11，nu11)); // 添加 重 绘 事件 

while (!pq.isEmpty()) 

{ // 处 理 一 个 事件 


Co 


Event event = pq.delMin(); 
if (levent,.isValid()) continue; 
for (int i = 0; i < particles.length; i++) 
particles[i] .move(event.time - tt); // 更 新 粒子 的 位 置 
t = event.time; // 和 时 间 
Particle a = event.a, b = event.b; 
1 (a != null && b != nul11) a.bounceOff(b); 
else if (a != null && b == null) a.bounceOffHorizontalwa110) ; 
else if (a == null && b != null1) b.bounceOffVerticalWall(); 
else if (a == null && b == nu11) redraw(limit, Hz); 
predictCollisions(a, limit); 
predictCollisions(b, 1imit); 
} 
+ 


该 方法 是 事件 驱 % java CollisonSystem 5 一 次 磁 撞 
动 模拟 的 主要 部 分 。 
首先 ， 我 们 用 所 有 粒 oo Ci (ei 
子 预测 的 所 有 未 来 碰 | 
撞 初 始 化 优先 队列 。 
然后 ， 主 循环 从 队列 
中 取出 一 个 事件 ， 更 
新 时 间 和 粒子 的 位 
置 ， 并 在 处 理 碰 撞 后 
向 队列 中 加 入 由 此 产 » 
生 的 所 有 新 的 潜在 
三 撞 。 


6.0.1.10 ”性 能 
如 本 小 节 的 开关 所 述 ， 我 们 对 于 事件 驱动 模拟 的 主要 兴趣 在 于 避免 时 间 驱 动 模拟 的 内 循环 所 必 
须 的 大 量 计算 。 


命题 A。 对 入 个 能 够 相互 碰撞 的 粒子 系统 ， 基 于 事件 的 模拟 在 初始 化 时 最 多 需要 NV 次 优先 队 
列 操作 ， 在 碰撞 时 最 多 需要 入 次 优先 队列 操作 ( 且 对 于 每 个 无 效 的 事件 都 需要 一 次 额外 的 操 
作 ) 。 


证 明 。 请 见 代 码 。 


如 果 使 用 2.4 节 中 优先 队列 的 标准 实现 ， 我 们 能 够 保证 优先 队列 的 每 次 操作 都 是 对 数 级 别 的 ， 
因此 每 次 碰撞 所 需 的 时 间 是 线性 对 数 级 别 的 。 这 样 ， 才 有 可 能 模拟 大 量 的 粒子 。 

事件 驱动 模拟 已 经 被 应 用 于 无 数 需 要 对 运动 中 的 物理 对 象 建 模 的 其 他 领域 ， 例 如 分 子 学 、 天 体 
物理 学 和 机 器 人 技术 。 这 些 应 用 可 能 会 用 其 他 实体 ， 或 是 三 维 空间 ， 或 是 其 他 作用 力 等 许多 种 方法 
扩展 这 个 模型 。 每 种 扩展 都 会 为 计算 带 来 新 的 挑战 。 这 种 事件 驱动 的 方式 得 到 的 模拟 比 其 他 方法 更 
加 健壮 、 准 确 和 高 效 ， 而 基于 堆 的 优先 队列 的 效率 使 不 可 能 完成 的 计算 成 为 了 可 能 。 

模拟 在 科学 和 工程 的 各 个 领域 都 是 帮助 研究 者 理解 自然 世界 中 各 种 性 质 的 重要 工具 。 它 的 应 用 
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从 制造 业 、 生 物 学 、 金 融 领 域 到 复杂 的 工程 结构 ， 数 不 胜 数 。 对 于 它们 其 中 的 一 大 部 分 应 用 ， 基 于 
堆 的 优先 队列 数据 类 型 或 是 高 效 的 排序 算法 能 够 使 模拟 的 质量 和 范围 大 有 改观 。 


6.0.2 B- 树 

在 第 3 章 中 我 们 已 经 看 到 ， 能 够 快速 访问 大 量 数据 中 的 特定 元 素 的 算法 对 于 实际 应 用 有 着 重要 
意义 。 例 如 在 巨型 数据 集中 ， 查 找 是 一 项 非常 重要 的 操作 ， 该 操作 在 许多 计算 场景 中 会 消耗 掉 大 部 
分 资源 。 随 着 互联 网 的 进步 ， 某 项 任务 访问 到 的 信息 可 能 非常 庞大 一 一 我 们 的 挑战 在 于 在 其 中 进行 
有 效 地 查找 。 在 本 小 节 中 ， 我 们 将 介绍 一 种 3.3 节 的 平衡 树 算法 的 扩展 。 它 支持 对 保存 在 磁盘 或 者 
网 络 上 的 符号 表 进 行 外 部 查找 ， 这 些 文件 可 能 比 我 们 以 前 考虑 的 输入 要 大 的 多 ( 以 前 的 输入 能 够 
保存 在 内 存 中 ) 。 现 代 软 件 系统 正在 淡化 本 地 文件 和 网 页 之 间 的 区 别 ， 这 些 内 容 也 可 能 保存 在 一 
台 远 程 计算 机 上 ， 因 此 我 们 可 以 找到 的 信息 实际 上 近似 于 无 限 。 令 人 惊讶 的 是 ， 我 们 将 要 学 习 的 
算法 只 需 使 用 4 ~ 5 个 指向 一 小 块 数据 的 引用 即 可 有 效 支持 在 含有 数 百 亿 或 者 更 多 元 素 的 符号 表 
中 进行 查找 和 插入 操作 ，。 
6.0.2.1 成 本 模型 

数据 存储 的 机 制 多 种 多 样 且 在 不 断 前 进 ， 因 此 我 们 将 使 用 一 个 能 够 抓 住 本 质 的 简单 模型 。 这 里 
用 页 表示 一 块 连续 的 数据 ， 用 探查 表示 访问 一 个 页 。 假 设 访问 一 页 需要 将 它 的 内 容 读 和 人 本 地 内 存 ， 
因此 之 后 的 访问 就 可 以 相对 高 效 。 一 个 页 可 能 是 本 地 计算 机 上 的 一 个 文件 ， 也 可 能 是 远程 计算 机 上 
的 一 张 网 页 ， 也 可 能 是 服务 器 上 的 某 个 文件 的 一 部 分 ， 等 等 。 我 们 的 目标 是 实现 能 够 仅 用 极 少 次 数 
的 探查 即 可 找到 任意 给 定 键 的 查找 算法 。 我 们 不 想 假设 页 的 具体 大 小 或 者 一 次 探查 ( 对 于 远程 设备 
显然 需要 通信 ) 所 需 时 间 与 随后 访问 块 中 内 容 ( 显然 这 发 生 在 本 地 处 理 器 上 ) 所 需 时 间 的 比例 。 在 
一 般 情况 下 ， 这 些 值 的 数量 级 可 能 是 100、1000 或 者 10 000。 我 们 不 需要 更 精确 的 值 ， 因 为 在 我 们 
感 兴趣 的 范围 内 ， 算 法 对 这 些 值 的 不 同 并 不 非常 敏感 。 


B- 树 的 成 本 模型 。 我 们 使 用 页 的 访问 次 数 (无 论 读 写 ) 作为 外 部 查找 算法 的 成 本 模型 。 


6.0.2.2 B- 树 

它 是 对 3.3 节 所 述 的 2-3 树 数据 结构 的 扩展 。 关 键 的 不 同 在 于 : 我 们 不 会 将 数据 保存 在 树 中 ， 
而 是 会 构造 一 棵 由 键 的 副本 组 成 的 树 ， 每 个 副本 都 关联 着 一 条 链接 。 这 种 方式 能 够 更 加 方便 地 将 
索引 和 符号 表 本 身分 开 ， 就 像 一 本 实体 书 中 的 索引 一 样 。 和 2-3 树 一 样 ， 我 们 限制 了 每 个 结 点 中 能 
够 含有 的 “ 键 -链接 ”对 的 上 下 数量 界限 : 选择 一 个 参数 M ( 一 般 都 是 一 个 偶数 ) 并 构造 一 棵 多 向 
树 ， 每 个 结 点 最 多 含有 M-1 对 键 和 链接 (假设 M 足够 小 ， 使 得 每 个 M 向 结 点 都 能 够 存放 在 一 个 页 
中 )，, 最少 含有 M/2 对 键 和 链接 ( 以 提供 足够 多 的 分 支 来 保证 查找 路 径 较 短 ) 。 根 结 点 是 个 例外 ， 
它 可 以 含有 少 于 M/2 对 键 和 链接 ， 但 也 不 能 少 于 2 对 。 这 种 树 被 Bayer 和 McCreight 在 1970 年 
命名 为 B- 树 。 他 们 是 最 早 使 用 多 向 平衡 树 进行 外 部 查找 的 研究 者 。 有 些 人 也 用 B- 树 这 个 术语 来 描 
述 Bayer 和 McCreight 发 明 的 算法 所 构造 的 数据 结构 。 本 节 用 它 泛 指 所 有 基于 固定 页 大 小 的 多 向 平 
衡 查 找 树 的 数据 结构 。 我 们 用 M 阶 的 B- 树 来 指定 M 的 值 。 在 一 棵 4 阶 B- 树 中 ， 每 个 结 点 都 含有 
至 少 2 对 至 多 3 对 键 - 链接; 在 一 棵 6 阶 B- 树 中 请 见 图 6.0.8， 每 个 结 点 都 至 少 含有 3 对 至 多 5 对 
键 一 接 ( 根 结 点 除外 , 它 可 以 只 含有 2 对 键 与 链接 ) ,等 等 。 对 于 较 大 的 M 根 结 点 是 个 例外 的 原因 ， 
在 学 习 构造 算法 的 细节 时 你 就 会 明白 了 。 
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除了 根 结 点 之 外 ， 所 有 结 点 均 为 3- 结 点 、4- 结 点 或 者 5- 结 点 


符号 表 的 键 (黑色 ) 
保存 在 外 部 结 点 中 


图 6.0.8 ”详解 用 一 棵 B- 树 表示 的 键 集 (ME6) 


6.0.2.3 ”约定 

为 了 说 明基 本 的 流程 ， 我 们 先 讨论 (有 序 ) (集合 ) SET 的 一 个 实现 (只 有 键 没有 值 ) 。 将 它 
扩展 得 到 一 个 能 够 将 键 和 值 相关 联 的 符号 表 实现 是 一 个 很 好 的 练习 ( 请 见 练习 6.16 ) 。 我 们 的 目标 
是 为 一 个 巨大 的 键 集 实现 add() 和 contains() 方法 。 使 用 有 序 集 的 原因 是 我 们 希望 将 查找 树 推 广 ， 
而 这 依赖 于 键 的 有 序 性 。 扩 展 实现 来 支持 其 他 有 序 性 操作 也 是 十 分 有 益 的 练习 。 外 部 查找 的 应 用 常 
常会 将 索引 和 数据 隔离 。 对 于 B- 树 ， 我 们 通过 使 用 以 下 两 种 不 同类 型 的 结 点 做 到 这 一 点 。 

口 内 部 结 点 : 含有 与 页 相关 联 的 键 的 副本 。 

口 外 部 结 点 : 含有 指向 实际 数据 的 引用 。 

内 部 结 点 中 的 每 个 键 都 与 一 个 结 点 相关 联 ， 以 此 结 点 为 根 的 子 树 中 ， 所 有 的 键 都 大 于 等 于 与 此 
结 点 关联 的 键 , 但 小 于 原 内 部 结 点 中 更 大 的 键 ( 如 果 存 在 的 话 ) 。 为 了 方便 这 里 使 用 了 一 个 特殊 的 
哨兵 键 , 它 小 于 其 他 所 有 键 。 一 开始 B- 树 只 含有 一 个 根 节点 , 而 根 结 点 在 初始 化 时 仅 含 有 该 哨兵 键 。 
符号 表 不 含有 重复 键 , 但 我 们 会 ( 在 内 部 结 点 中 ) 使 用 键 的 多 个 副本 来 引导 查找 。 ( 在 示例 中 ， 所 
有 键 都 是 单个 字母 并 使 用 小 于 所 有 字母 的 “*” 作 为 哨兵 键 。) 这 些 约定 能 够 一 定 程度 上 简化 代码 ， 
并 且说 明了 另 一 种 在 内 部 结 点 中 将 所 有 数据 和 链接 混合 的 便利 ( 而 且 是 广泛 使 用 的 ) 方式 ， 就 像 其 
他 查找 树 一 样 。 
6.0.2.4 ”查找 和 插入 

B- 树 中 查找 的 基础 是 在 可 能 含有 被 查找 键 的 唯一 子 树 中 进行 递归 搜索 。 当 且 仅 当 被 查找 的 键 
包含 在 集合 中 时 ， 每 次 查找 便 会 结束 于 一 个 外 部 结 点 。 在 内 部 结 点 中 遇 到 被 查找 的 键 的 副本 时 就 判 
断 查找 命中 并 结束 ， 但 总 会 找到 相应 的 外 部 结 点 ， 因 为 这 么 做 可 以 简化 将 B- 树 扩展 为 有 序 符号 表 
的 实现 ( 当 M 很 大 时 这 种 情况 很 少 出 现 ) 。 举 一 个 具体 的 例子 : 假设 有 一 棵 6 阶 B- 树 ， 该 树 由 多 
个 含有 3 对 键 -链接 的 3- 结 点 、 含 有 4 对 键 -链接 的 4- 结 点 和 含有 5 对 键 - 链接 的 5- 结 点 以 及 
一 个 2- 根 结 点 组 成 ， 请 见 图 6.0.9。 在 查找 时 ， 从 根 结 点 开始 ， 根 据 被 查找 的 键 选择 当前 结 点 中 的 
适当 区 间 并 根据 适当 的 链接 从 一 个 结 点 移动 到 下 一 个 结 点 。 最 终 ， 查 找 过 程 会 到 达 树 底 的 一 个 含有 
键 的 页 。 如 果 被 查找 的 键 在 该 页 中 ， 查 找 命中 并 结束 ; 如果 不 在 ， 则 查找 未 命中 。 和 2-3 树 一 样 ， 
要 在 树 的 底部 插入 一 个 新 键 ， 可 以 使 用 递归 代码 。 如 果 空 间 不 足 ， 那 么 可 以 允许 被 插入 的 结 点 暂 
时 “溢出 ”《( 变 成 一 个 6- 结 点 ) ， 并 在 递归 调用 后 向 上 不 断 分 裂 6- 结 点 。 如 果 根 结 点 也 变 成 了 6- 
结 点 ， 则 可 以 将 它 分 裂 成 连接 了 两 个 3- 结 点 的 2- 结 点 ; 对 于 树 的 其 他 位 置 ， 我们 将 6- 结 点 结 点 
的 父 扩 结 点 变 为 连接 着 两 个 3- 结 点 的 (t+l)- 结 点 。 将 上 文中 的 3 替换 成 M2，6 蔡 换 成 M， 即 可 
得 到 M 阶 B- 树 中 的 查找 和 插入 操作 的 方法 ， 请 见 图 6.0.10。 定 义 如 下 所 示 。 





定义 。 一 棵 M 阶 B- 树 (14 为 正 偶 数 ) 或 者 仅 是 一 个 外 部 大 结 点 (含有 kk 个 键 和 相关 信息 的 树 ) ， 
或 者 由 若干 内 部 三 结 点 (每 个 结 点 都 含有 大 个 键 和 条 链接 ， 链 接 指向 的 子 树 表 示 了 键 之 间 的 间 
隅 区 域 ) 组 成 。 它 的 结构 性 质 如 下 : 从 根 结 点 到 每 个 外 部 结 点 的 路 径 长 度 均 相同 〈 完美 平衡 ) ; 对 
` 于 根 结 点 , kK 在 2 到 M-1 之 间 ， 对 于 其 他 结 点 上 在 M12 到 M-1 之 间 。 

查找 E 5 


跟随 这 条 链接 ， 因 
为 E 在 * 和 K 之 间 人 







跟随 这 条 链接 ， 因 
.一 为 E 在 D 和 H 之 间 

| 
在 该 外 部 结 

点 中 查找 E 





图 6.0.9 在 由 B- 树 表示 的 键 集中 进行 查找 (ME=6) 
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~ 一 一 新 插入 的 键 C 造 成 了 溢出 和 分 裂 





图 6.0.10 向 由 B- 树 表示 的 键 集 中 插入 一 个 新 键 


6.0.2.5 ”数据 表示 

按照 刚才 的 讨论 ， 我 们 在 选择 B- 树 结 点 的 表示 方法 上 有 很 大 的 自由 度 。 我 们 将 这 些 选 择 封 装 
在 一 个 Page API 中 (请 见 表 6.0.2 ) 。 它 可 以 关联 键 与 指向 Page 对 象 的 链接 ， 支 持 检测 页 是 否 溢 
出 、 分 型 页 并 区 分 内 部 页 和 外 部 页 的 操作 。 你 可 以 将 Page 看 作 一 张 符号 表 ， 但 是 是 保存 在 外 部 介 
质 上 的 (本 地 或 是 网 络 上 的 文件 ) 。API 中 的 “打开 ”(open ) 和 “关闭 ”(close ) 方法 指 的 是 将 
外 部 页 读 入 内 存 和 将 内 存 内 容 写 回 外 部 页 ( 如 果 需 要 的 话 ) 的 过 程 。add0) 方法 是 为 内 部 页 准备 
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的 ， 它 是 一 个 符号 表 操 作 ， 会 将 给 定 页 和 以 该 页 为 根 结 点 的 子 树 中 的 最 小 键 关联 起 来 。add() 和 
contains 0) 方法 是 为 外 部 页 准备 的 ， 和 SET 中 相应 的 方法 类 似 。 在 所 有 实现 中 ， 最 重要 的 方法 都 
是 sp1it()。 在 分 裂 一 张 饱 和 页 时 ，sp1itQ 方法 会 将 排序 后 位 置 正好 大 于 M1V2 的 键 移动 到 一 个 新 
的 Page 对 象 中 , 并 返回 该 对 象 的 引用 。 练习 6.15 讨论 了 使 用 BinarySearchST 对 Page 的 一 种 实现 。 
这 种 方法 将 B- 树 实现 在 了 内 存 中 ， 和 其 他 查找 树 的 实现 一 样 。 在 某 些 系统 中 ， 这 种 外 部 查找 的 实 
现 可 能 已 经 足够 了 ， 因 为 虚拟 内 存 系统 会 处 理 磁盘 访问 。 更 加 贴近 实际 的 实现 可 能 包含 与 硬件 相关 
的 代码 来 读 取 和 写 人 页 的 内 容 。 练 习 6.19 会 鼓励 你 用 网 页 实现 Page。 这 里 不 会 讨论 这 些 细节 ， 而 
强调 的 重点 是 B- 树 的 概念 能 够 广泛 用 于 各 种 场景 之 中 。 


6.0.2 B- 树 的 页 的 API 


public class Page<Key> 


Page(boolean bottom) 创建 并 打开 一 个 页 

void closeO) 关闭 页 

void add(Key key) 将 键 插入 ( 外 部 的 ) 页 中 

void add(Page p) 打开 p， 向 这 个 ( 内 部 ) 页 中 插入 一 个 条 日 

并 将 p 和 p 中 的 最 小 键 相 关联 

boolean isExternal() 这 是 一 个 外 部 页 吗 
boolean contains(Key key) 键 key 在 页 中 吗 

Page next(Key key) 可 能 含有 键 key 的 子 树 
boolean isFul110) 页 是 否 已 经 溢出 

Page split() 将 较 大 的 中 间 键 移动 到 一 个 新 页 中 

870 Iterable<Kkey> keys() 页 中 所 有 键 的 迭代 器 


在 这 些 准 备 之 后 ， 后 面 框 注 “B- 树 集合 的 实现 ”的 BTreeSET 就 很 简单 了 。 它 用 递归 实现 了 
contains() 方法 ， 接 受 一 个 Page 对 象 作 为 参数 并 处 理 了 以 下 3 种 情况 。 

口 如 果 当 前 页 是 外 部 页 且 键 在 该 页 中 ,返回 true。 

口 如 果 当 前 页 是 外 部 页 且 键 不 在 该 页 中 ,返回 false。 

口 否则 ， 递 归 地 在 可 能 含有 该 键 的 子 树 中 查找 。 

我 们 用 相同 的 递归 结构 实现 了 add0) 方法 ， 只 是 在 没有 找到 该 键 的 时 候 将 它 插入 到 了 树 底部 的 
页 中 ， 然 后 分 裂 回溯 过 程 中 所 遇 到 的 所 有 饱和 结 点 ， 请 见 图 6.0.11。 
6.0.2.6 ”性 能 

B- 树 最 重要 的 性 质 就 是 ， 在 实际 应 用 中 对 于 适当 的 参数 M， 查 找 的 成 本 是 常数 级 别 的 。 


命题 B。 含 有 个 元 素 的 M 阶 B- 树 中 的 一 次 查找 或 插入 操作 需要 logwV ~ logw2N 次 探查 一 一 
在 实际 情况 下 这 基本 是 一 个 常数 。 


证 明 。 因 为 树 中 的 所 有 内 部 结 点 ( 非 根 结 点 也 非 外 部 结 点 的 所 有 结 点 ) 的 形成 都 是 由 含有 M 个 
键 的 饱和 结 点 分 裂 得 到 的 且 大 小 只 可 能 增长 ( 当 它 的 子 结 点 分 裂 时 ) ， 所 以 其 中 的 链接 数 总 是 
在 MI/2 到 MM-1 之 间 。 在 最 好 的 情况 下 ， 这些 结 点 能 够 形成 一 棵 M-1 向 的 完全 树 ， 由 此 马上 就 
可 以 得 到 命题 中 所 述 的 上 下 界 。 在 最 坏 情况 下 ， 根 结 点 只 含有 两 个 链接 并 分 别 指向 两 棵 M2 向 
的 完全 树 。 将 对 数 的 底 设 为 W 可 以 得 到 一 个 非常 小 的 数 一 例如 ， 当 M 为 1000 且 人 六 小 于 625 
亿 时 ， 树 的 高 度 小 于 4。 


第 6 章 背 景 起 571 


在 一 般 情况 下 ,我 们 可 以 将 根 结 点 保存 在 内 存 中 ， 这 样 可 以 将 探查 次 数 减 1。 在 磁盘 和 网 络 中 
进行 查找 时 ， 应 该 在 开始 大 量 查找 前 显示 地 完成 这 一 步 。 在 带 有 缓存 的 虚拟 内 存 中 ， 应 该 将 根 结 点 
放 在 最 快 的 缓存 中 ， 因 为 它 是 访问 最 频繁 的 结 点 。 
6.0.2.7 ”空间 需求 
在 实际 应 用 中 , 我 们 对 B- 树 使 用 的 空间 也 很 感 兴趣 。 由 页 的 构造 可 知 ， 它 们 至 少 都 是 半 满 的 。 
在 最 坏 的 情况 下 ，B- 树 所 需 的 空间 是 所 有 键 占用 的 实际 空间 的 一 倍 再 加 上 链接 所 需 的 空间 。 对 于 随 
机 键 ，A.Yao 在 1979 年 (使 用 超出 了 本 书 范围 的 数学 方法 ) 证 明了 结 点 中 平均 含有 Min2 个 键 ， 因 
此 浪费 的 空间 约 占 44%。 和 其 他 查找 算法 一 样 ， 这 个 随机 模型 也 很 好 地 预测 了 在 实际 应 用 中 所 观察 
到 的 键 的 分 布 。 


算法 6.12”B- 树 集合 的 实现 





public class BTreeSET<Key extends Comparable<Key>> 
过 


private Page root = new Page(true); 


public BTreeSET(Key sentinel) 
{ put(sentinel); } 


public boolean contains(Key key) 
{ return contains(root, key); } 


private boolean contains(Page h, Key key) 

{ 
if (h.isExternal()) return h.contains(key); 
return contains(h.next(key), key): 


} 


public void add(Key key) 
{ 
put (root, key); 
if (Croot.isFul10)) 
Page lefthalf = root; 
Page righthalf = root.split(); 
root = new Page(false); 
root.put(lefthalf); 
root.put(righthalf); 
有 
} 


public void add(Page h, Key key) 
{ 
if (h.isExternalO)) { h.put(key); return; } 


Page next = h.next(key); 
put(next, key); 
if (next.isFullO) 
h.put(next.spiit()); 
next.close(); 
} 
} 


如 正文 所 述 ， 这 有 段 代码 实现 了 多 向 平衡 查找 树 ( B- 树 ) 。 它 在 查找 时 使 用 了 Page 数据 类 型 来 将 键 
和 可 能 含有 该 键 的 子 树 相 关联 ， 并 通过 检测 键 的 溢出 和 分 裂 结 点 的 方法 完成 了 插入 操作 ， 请 见 图 6.0.11。 [872 
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命题 B 的 影响 之 巨大 ， 值 得 我 们 思考 。 你 会 猜 到 某 种 查找 算法 只 需 4 ~ 5 次 访问 即 可 搜索 你 能 
够 想象 的 最 大 文件 吗 ? B- 树 的 应 用 十 分 广泛 ， 就 是 因为 它 能 够 实现 这 一 点 。 在 实践 中 ， 主 要 的 挑 
战 是 在 实现 时 尽量 保证 B- 树 中 结 点 所 需 的 空间 ， 但 随 着 大 部 分 设备 上 的 存储 空间 的 增长 ， 这 已 经 
不 算 什么 问题 了 。 

基本 B- 树 抽象 的 许多 变种 都 很 容易 理解 。 一 类 变化 是 尽 可 能 在 内 部 结 点 中 保存 更 多 的 页 引用 
以 节省 时 间 ， 这 样 可 以 使 分 支 增多 并 将 树 更 加 扁平 化 。 另 一 类 变化 是 在 分 裂 前 将 兄弟 结 点 合并 以 
提高 存储 的 使 用 效率 。 对 算法 的 变种 以 及 参数 的 选择 应 该 适应 于 具体 的 设备 和 应 用 。 尽 管 提 高 的 
效率 也 仅 限 于 常数 因子 的 范围 之 内 ， 但 对 于 巨型 符号 表 或 是 大 量 事物 处 理 需 求 来 说 ， 这 样 的 改进 
也 有 着 重要 的 意义 ， 这 也 是 为 什么 B- 树 如 此 高 效 的 原因 。 
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图 6.0.11 构造 一 棵 庞大 的 B- 树 


6.0.3 ”后 缀 数组 

字符 串 处 理 的 高 效 算法 在 科学 计算 和 商业 应 用 中 都 有 着 重要 的 地 位 。 从 搜索 互联 网 文本 信息 到 
科学 家 为 了 揭 开 生命 的 秘密 而 努力 研究 的 庞大 基因 数据 库 ，21 世纪 中 基于 字符 串 的 计算 机 应 用 在 大 
规模 增长 。 和 以 前 一 样 ， 许 多 经 典 的 算法 都 十 分 有 效 ， 但 人 们 也 发 明了 一 些 很 好 的 新 算法 。 下 面 ， 
我 们 将 介绍 能 够 支持 这 些 算法 的 一 种 数据 结构 和 一 份 API。 首 先 ， 我 们 来 看 一 个 典型 的 (而 且 是 经 
典 的 ) 字符 串 处 理 问题 。 
6.0.3.1 最 长 重复 子 字符 串 

在 给 定 的 字符 串 中 ， 至 少 出 现 了 两 次 的 最 长 子 字符 串 是 什么 ?例如 ， 在 字符 串 "to be or 
not to be" 中， 最 长 重复 子 字符 串 就 是 "to be" 。 你 觉得 应 该 怎样 解决 这 个 问题 呢 ? 你 能 在 长 度 
为 数 百 万 个 字符 的 字符 串 中 找 出 它 的 最 长 重复 子 字符 串 吗 ? 这 个 问题 的 说 明 很 简单 ， 应 用 也 很 多 ， 
包括 数据 压缩 、 密 码 学 和 计算 机 辅助 音乐 分 析 等 。 例 如 ， 开 发 大 型 软件 系统 中 的 一 种 常见 技术 叫做 
代码 重 构 。 程 序 员 经 常会 通过 复制 粘贴 代码 从 原 有 的 程序 生成 新 的 程序 。 对 于 开发 了 很 长 时 间 的 一 
大 段 程 序 ， 将 不 断 重复 出 现 的 代码 转化 为 函数 调用 能 够 使 程序 更 加 容易 理解 和 维护 。 我 们 可 以 通过 
在 程序 中 寻找 最 长 重复 子 字 符 串 做 到 这 一 点 。 这 个 问题 的 男 一 个 应 用 是 计算 生物 学 。 在 给 定 的 基因 
中 存在 大 量 相同 的 片段 吗 ? 同样， 这 个 问题 背后 的 本 质 也 是 找 出 字符 串 中 的 最 长 重复 子 字符 串 。 科 
学 家 一 般 更 关心 细节 ( 事实 上 ， 重 复 子 字符 串 的 意义 正 是 科学 家 所 希望 理解 的 ) ， 但 这 个 问题 显然 
比 寻 找 简单 的 最 长 重复 子 字 符 串 更 难以 回答 。 
6.0.3.2 ”暴力 解法 

作为 热身 ， 考 虑 以 下 这 个 简单 \ 有 | . 
的 任务 ;给 定 两 个 字符 串 ， 找 到 它 | static -int Jcp(String Ss Strhing t) 


们 的 最 长 公共 前 缓 ( 两 者 的 前 级 字 int N = Math.min(s.1length(), t.length()); 
符 串 中 的 相同 且 最 长 者 ) 。 例 如 ， 人 return 1 ; 
acctgttaac 和 accgttaa 的 最 长 公 return N; 

共 前 缀 是 acc。 右 边框 注 中 的 代码 是 “ 

我 们 解决 更 加 复杂 问题 的 起 点 : 它 两 个 字符 串 的 最 长 公共 前 绥 


所 需 的 时 间 和 相 匹 配 的 子 字符 串 长 
度 成 正比 。 现 在 ， 我 们 应 该 如 何在 给 定 的 字符 串 中 找到 最 长 重复 子 字符 串 呢 ? 根据 1cp() ， 马 上 可 
以 得 到 下 面 这 种 暴力 解法 : 将 一 个 字符 串 中 起 始 位 置 为 1 的 子 字 符 串 与 另 一 个 字符 串 中 起 始 位 置 为 
j 的 子 字符 串 相 比 较 ， 记 录 匹 配 的 最 长 子 字符 串 。 这 段 代 码 不 适合 处 理 长 字符 串 ， 因 为 它 的 运行 时 
间 至 少 是 字符 串 长 度 的 平方 级 别 : 不 同 的 子 字符 串 对 i 和 j 的 数量 为 NN-1)/2， 因 此 这 种 方式 调 
用 1cpO 的 次 数 将 会 是 ~ N/2。 用 这 种 方法 处 理 含有 上 百 万 个 字符 的 碱 基 对 序列 将 会 调用 几 百 亿 次 
1cpQ)， 显 然 这 是 不 可 行 的 。 
6.0.3.3 ”后 组 排序 

下 面 这 种 巧妙 的 方法 用 一 种 出 人 意料 的 方式 利用 排序 算法 高 效 地 找 出 了 字符 串 中 的 最 长 重 
复 子 字符 串 : 用 Java 的 substring () 方法 创建 一 个 由 字符 串 s 的 所 有 后 缀 字符 串 ( 由 字符 串 
的 所 有 位 置 开 始 得 到 的 后 绥 字 符 串 ) 组 成 的 数组 ， 然 后 将 该 数组 排序 ， 请 见 图 6.0.12。 算 法 的 
关键 在 于 原 字符 串 的 每 个 子 字 符 串 都 是 数组 中 的 某 个 后 级 字符 串 的 前 级 。 在 排序 之 后 ， 最 长 重 
复 子 字 符 串 会 出 现在 数组 中 的 相 邻 位 置 。 因 此， 只 需要 遍历 排序 后 的 数组 一 遍 即 可 在 相 邻 元 素 
中 找到 最 长 的 公共 前 级 。 这 种 方法 比 暴 力 方法 有 效 得 多 。 但 在 实现 和 分 析 它 之 前 ， 我 们 先 介绍 
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后 级 排序 的 男 一 种 应 用 。 
6.0.3.4 ”定位 字符 串 
当 需 要 在 大 量 文 本 中 寻找 某 个 特定 的 子 字 符 串 时 ( 例如， 输入 字符 串 
O1234567 8 91011121314 


当 你 在 使 用 文本 编辑 器 或 是 在 浏览 网 页 时 ) ， 你 就 是 在 进行 一 ee 
次 子 字符 囊 查找 ， 即 5.3 节 中 讨论 过 的 问题 。 对 于 这 个 问题 ,我 


所 有 后 级 字符 串 
们 假设 文本 比 要 查找 的 字符 串 虎 大 得 多 ， 并 将 注意 力 集中 在 查 0。 aacaagtttacaagc 
找 字符 串 的 预 处 理 上 ， 以 保证 能 够 在 任意 给 定 的 文本 中 高 效 的 。 ” ;3caagtttacaage 
找到 该 子 字符 串 。 当 在 浏览 器 中 输入 要 查找 的 关键 字 时 ， 就 是 4 ta 
在 进行 一 次 字符 囊 键 查找 ， 即 5.2 节 的 主题 。 搜 索引 擎 必然 已 经 。 ;gtttacaagc 
预先 计算 得 到 了 一 张 案 引 表 ， 因 为 它 不 可 能 即时 地 根据 输入 的 。 7 ttacaage 
关键 字 扫 描 互 联网 中 的 所 有 页 面 。 根 据 3.5 节 的 讨论 ( 请 见 3.5.4 at 
节 框 注 “ 文 件 索引 ”的 FileIndex ) ， 理 想 情 况 下 最 好 有 一 张 11 aagC 


反 向 索引 符号 表 将 每 个 被 查找 的 字符 串 和 所 有 含有 它 的 网 页 关 2 ge 
联 起 来 一 -在 符号 表 的 每 个 条 目 中 ， 键 即 为 被 查找 的 字符 串 ， Se 
而 值 则 为 一 组 指针 ， 请 见 图 6.0.13 ( 每 个 指针 都 含有 能 够 定位 。。 于 六 局 0 局 线 守 人 
该 键 在 互联 网 上 具体 位 置 所 需 的 信息 一 一 这 可 以 是 一 个 网 页 的 。 aag¢t4acaage 


3 
URL 加 上 键 的 出 现 位 置 的 偏 移 量 。 ) 在 实际 应 用 中 ， 这 样 的 符 . me 
号 表 会 非常 非常 大 ， 因 此 搜索 引擎 会 使 用 各 种 复杂 的 算法 来 缩 ee 
小 它 的 体积 。 一 种 方法 是 将 网 页 按照 重要 程度 排序 ( 可 以 使 用 14 C 


10 Caagc 





3.5.5 节 讨 论 的 PageRank 算法 ) 并 只 选择 排序 等 级 较 高 的 网 页 2 caagtttacaagc 
而 非 全 部 网 页 。 另 一 种 减 小 符号 表 大 小 的 方法 是 将 多 个 关键 记 如 人 
(以 空格 分 隔 ) 作为 预 处 理 得 到 的 索引 表 的 键 并 和 URL 关联 。 A 

§ tttacaagc 


那么 ， 当 你 查找 一 个 关键 词 时 ， 搜 索引 擎 可 以 通过 索引 找到 含 网 
有 被 查找 的 键 ( 即 关键 词 ) 的 ( 相对 重要 的 ) 网 页 ， 并 在 该 页 基 长 重复 了 字体 审 


9 
面 中 使 用 字符 串 查找 来 定位 关键 词 。 使 用 这 种 方法 时 ， 如 果 文 aacaag ttt acaag C 
本 含有 的 是 “everything” 而 你 要 找 的 是 “thing”， 那 可 能 会 图 6.0.12 ”使 用 后 组 排序 计算 最 
找 不 到 。 对 于 某 些 应 用 ， 构 造 一 个 能 够 帮助 我 们 找 出 文本 中 的 长 重复 子 字符 串 


任意 子 字符 串 的 索引 是 值得 的 。 这 人 么 做 可 能 是 为 了 对 一 本 非常 

重要 的 文学 作品 进行 语言 学 研究 ， 或 是 为 了 找 出 可 能 成 为 许多 科学 家 研究 对 象 的 某 段 碱 基 对 序列 ， 
或 者 找 出 访问 量 很 大 的 网 页 。 同 样 ， 在 理想 情况 下 ， 索 引 表 应 该 将 文本 字符 串 的 所 有 子 字符 串 分 别 
和 它们 的 出 现 位 置 关 联 起 来 ， 如 图 6.0.14 所 示 。 这 种 方法 的 问题 显然 是 子 字符 串 的 总 数 太 大 ， 在 符 
号 表 中 为 每 个 子 字符 串 创建 一 个 条 目 不 现 实 。( 一 段 含 及 个 字符 的 文本 含有 NCN+1)/2 个 子 字符 串 。) 
图 6.0.14 中 的 符号 表 需 要 含有 b、be、bes、best、besto、best of、e、es、est、esto、est of、S、 
st、 sto、 st of、t、to、tof、o、 of 和 许 许多 多 其 他 子 字符 串 的 条 目 。 这 次 我 们 也 可 以 用 后 绥 排 
序 的 方法 解决 这 个 问题 ， 就 像 3.1 节 中 用 二 分 查找 对 符号 表 的 第 一 次 实现 一 样 。 我 们 可 以 将 YX 个 后 
缀 作为 键 ， 以 这 些 键 (后缀 ) 创建 一 个 有 序 的 数组 并 使 用 二 分 查找 法 搜索 数组 ， 比 较 被 查找 的 键 和 
所 有 后 级 ， 请 见 图 6.0.15。 


在 以 字符 串 为 键 的 符号 表 中 进行 
查找 : 找 出 含有 该 键 的 网 页 
键 值 

















it 
was the best 





it was the best 


it was the 
best 









子 字符 串 查找 : 在 
网 页 中 找到 该 键 


it was the 
best 
it was 


it was 


it was 


it was 





图 6.0.13 理想 化 的 一 次 典型 的 网 络 搜索 图 6.0.14 理想 化 的 一 张 文 本 字符 串 索 引 表 


后 绥 有 序 后 绥 数 组 


it was the best of times it was the 
t was the best of times it was the 
was the best of times it was the 
was the best of times it was the 
as the best of times it was the 

s the best of times it was the 

the best of times it was the 

the best of times it was the 

he best of times it was the 


3 


e best of times it was the 9 4 
best of times it was the 

best of times it was the 

est of times it was the index(9) 


st of times it was the 
t of times it was the 

of times it was the 
of times it was the 

f times it was the 

times it was the 

times it was the 

imes it was the 20 10 


mes it was the 

es it was i 

s it was the 

.it was the lcp(20) 
it was the 


t was the 


s the rank("th")—> 30 


best of times it was the 
it was the 
of times it was the 


the 

the best of times it was the 

times it was the 

was the 

was the best of times it was the 

as the select(9) 
as the best of times it was the 

best of times it was the 


e 
e best of times it was the 
es it was the 

est of times it was the 

‘ times it was the 


e 
he best of times it was the 

imes it was the 

it was the 

it was the best of times it was the 
mes it was the 

of times it was the 

s it was the 

s the 

Ss the best of times it was the 

st of times it was the 

t of times it was the 

t was the 

t was the best of times it was the 


the best of times it was the 
times it was the 

was the 

was the best of times it was the 


AN 
在 二 分 查找 中 通过 rank() 
方法 找到 的 含有 “th” 的 区 间 


图 6.0.15 后 级 数组 中 的 二 分 查找 9 


6.0.3.5 API 及 其 用 例 


为 了 解决 这 两 个 问题 ， 我 们 给 出 了 以 下 API。 它 含有 构造 函数 、1ength() 方法 、select() 和 


index() 方法 分 别 给 


出 了 有 序 后 绥 数 组 中 给 定位 置 的 后 级 和 它 的 索引 值 、1cp () 方法 会 返回 每 个 后 
缀 和 它 在 数组 中 的 前 一 个 后 级 的 最 长 公共 前 级 、 


rankQ 〇 方法 能 够 给 出 小 于 给 定 键 的 后 级 数量 。 ( 自 
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从 第 1 章 中 第 一 次 学 习 二 分 查找 后 就 一 直 在 使 用 它 。 ) 我 们 用 后 组 数组 表示 有 序 后 缀 字符 串 列表 的 
这 种 抽象 数据 结构 ， 但 实际 使 用 的 并 不 一 定 是 字符 串 数组 ， 如 表 6.0.3 所 示 。 


public class SuffixArray 


表 6.0.3 ”后缀 数组 的 API 





SuffixArray(String text) 为 文本 text 构造 后 级 数组 


int length() 
String select(int i) 
int index(int 1) 


int lcpCint 1) 


int rank(String key) 


在 右边 框 注 所 示 的 例子 中 ， 
select(9) 的 结果 是 “as the 
best of times...”、index(9) 
的 值 是 4、1cp(20) 的 值 是 10 
(因为 “it was the best of 
times...” 和 “it was the” 
的 公共 前 级 “it was the” 的 长 
度 为 10) 、rank(“th”) 的 值 是 
30。 注 意 ，select(rank(key)) 
是 有 序 后 绥 数 组 中 第 一 个 以 key 
为 前 缀 的 后 缀 字符 串 ， 键 key 
在 正文 中 出 现 的 其 他 位 置 都 在 
后 级 数组 中 紧 跟 着 该 条 目 (请 
见 图 6.0.15)。 使 用 这 份 API 
可 以 立即 写 出 框 注 中 的 代码 。 
LRS 类 ( 见 本 页 框 注 ) 会 为 标 
准 输入 得 到 的 文本 构造 后 绥 数 
组 ， 并 根据 扫描 数组 所 得 的 最 
大 1cpQ 〇 值 找 出 文本 中 的 最 长 
重复 子 字 符 串 。KWIC 类 ( 见 下 
页 框 注 ) 会 为 命令 行 参数 指定 
的 文本 构造 后 缀 数组 ， 从 标准 
输入 接受 查询 并 打印 出 被 查询 


文本 text 的 长 度 
后 组 数组 中 的 第 1 个 元 素 (i 在 0 到 N-l 之 间 ) 
select(i) 的 索引 (i 在 0 到 NN-1 之 间 ) 


select(i) 和 select(i-1) 的 最 长 公共 前 缀 的 长 度 (i 在 1 
到 NW-1 之 间 ) 


小 于 键 key 的 后 组 数量 


public class LRS 
{ 
public static void main(String[] args) 
和 
String text = StdIn.readA11(); 
int N = text.1lengthO; 
SuffixArray sa = new SuffixArray(text); 
String lrs = ""; 
for (int 1 = 1; i < N; i++) 
int length = sa.1lcp(i); 
if (length > lrs.length(O)) 
lrs = sa.select(i).substring(0, length); 
} 
Stdout .printlnClrs) ; 


最 长 重复 子 字 符 串 算法 的 用 例 


% more tinyTale.txt 

it was the best of times it was the worst of times 

it was the age of wisdom it was the age of foolishness 
it was the epoch of belief it was the epoch of incredulity 
it was the season of light it was the season of darkness 
it was the spring of hope it was the winter of despair 


% java LRS < tinyTale.txt 
st of times it was the 


的 子 字 符 串 在 文本 中 的 上 下 文 ( 该 字符 串 的 前 后 阁 干 个 字符 ) 。KWIC 这 个 名 字 表 示 的 是 上 下 文中 
的 关键 词 (keyword-in-context ) 查找 ， 最 早出 现在 20 世纪 60 年 代 。 这 些 典 型 的 字符 串 处 理应 用 
代码 的 简洁 和 高 效 令 人 赞叹 。 这 也 说 明了 精心 设计 API 的 重要 性 ( 以 及 简单 而 巧妙 的 思想 的 影响 
而 天 汪 
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public class KWIC 


引 
public static void main(String[] args) 
{ 
In in = new In(args[0]); 
int context = Integer.parseInt(args[1]); 
String text = in.readAl1l1().replaceAll("\\s+", ” ");; 
int N = text.lengthO; 
SuffixArray sa = new SuffixArray(text); 
while (StdIn.hasNextLine()) 
String q = StdIn.readLineQO); 
for (int 1 = sa.rank(q); i < N && sa.select(i).startsWith(q); i++) 
{ 
int from = Math.max(0, sa.index(i) - context); 
int to = Math.min(N-1, from + q.length() + 2*context); 
StdOut.printin(text.substring(from, t0)); 
} 
Stdout .println0) ; 
} 
} 
} 
上 下 文中 的 关键 词 的 索引 用 例 
% java KWIC tale.txt 15 
search 
0 st giless to search for contraband 
her unavailing search for your fathe 
le and gone in search of her husband 
t provinces in search of impoverishe 
dispersing in search of other carri 
n that bed and search the straw hold 
better thing 
t is a far far better thing that i do than 
some sense of better things else forgotte 
was capable of better things mr carton ent 
6.0.3.6 ”实现 


算法 6.13 中 的 代码 简洁 明了 地 实现 了 SuffixArry 的 API。 它 的 实例 变量 包括 一 个 字符 串 数 
组 和 (为 了 节省 代码 ) 一 个 表示 数组 长 度 的 的 变量 N( 既是 字符 串 的 长 度 也 是 它 的 后 级 字符 串 数 
量 ) 。 类 的 构造 函数 会 构造 后 级 数组 并 将 它 排序 ， 因 此 select(i) 只 需 返 回 suffixes[i] 即 可 。 
indexQ 的 实现 也 只 要 一 行 代码 ， 但 稍微 复杂 一 点 ， 因 为 后 组 字符 串 的 长 度 就 说 明了 它 的 起 始 位 
置 。 长 度 为 N 的 后 级 字符 串 的 起 始 位 置 为 0， 长 度 为 N-1 的 后 绥 字 符 串 的 起 始 位置 为 1， 长度 为 
N-2 的 后 缀 字符 串 的 起 始 位 置 为 2， 依 此 类 推 。 因 此 index(i) 的 返回 值 即 为 N-suffixes[1i]. 
length()。 由 6.0.3.2 节 中 的 静态 1cpQ 方法 可 以 很 容易 得 到 这 里 的 1cpO 〇 方法 的 实现 ，rank() 
方法 与 3.1.5 节 “ 算 法 3.2 ( 续 ) ”中 基于 二 分 查找 的 符号 表 的 实现 也 基本 相同 。 同 样 ， 实 现 的 简洁 
与 优雅 并 不 能 掩盖 这 是 一 种 复杂 的 算法 ， 它 解决 了 如 最 长 重复 子 字符 串 这 种 其 他 方法 无 法 解决 的 重 
要 问题 。 
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6.0.3.7 ”性 能 

后 缀 排序 算法 的 效率 取决 于 Java 的 子 字符 串 提取 操作 使 用 的 内 存 空间 ， 它 是 一 个 常数 一 一 每 
个 子 字符 串 都 是 由 标准 对 象 、 指 向 原 字符 串 的 指针 和 它 的 长 度 组 成 的 。 因 此 ， 索 引 的 大 小 和 字符 串 
的 长 度 是 线性 关系 。 这 让 人 有 些 意外 ， 因 为 所 有 子 字 符 串 中 的 字符 总 数 为 - N/2， 即 字符 串 长 度 的 
平方 级 别 。 另 外 ， 这 种 平方 级 别 的 性 能 也 会 大 大 影响 子 字 符 串 数组 的 排序 成 本 。 我 们 要 记 住 的 重要 
一 点 是 ， 这 种 方法 对 长 字符 串 有 效 的 原因 在 于 Java 的 字符 串 表 示 方 法 : 当 交 换 两 个 字符 串 时 ， 实 际 
交换 的 仅仅 是 对 它们 的 引用 ， 而 非 字 符 串 本 身 。 虽 然 当 两 个 字符 串 有 很 长 的 公共 前 缀 时 比较 它们 的 
成 本 与 它们 的 长 度 成 正比 ， 但 在 一 般 的 应 用 场景 下 ， 大 多 数 比较 都 只 需要 检查 几 个 字符 。 如 果 是 这 
样 的 话 ， 后 绥 数 组 的 排序 时 间 就 是 线性 对 数 的 。 例 如 , 在 许多 应 用 中 ， 随 机 字符 串 模型 都 是 合理 的 。 


命题 C。 使 用 三 向 字符 串 快 速 排序 ， 构 造 长 度 为 V 的 随机 字符 上 囊 的 后 组 数组 ,平均 所 需 的 空间 
与 人 成 正比 ， 字 符 比 较 次 数 与 ~ 2NInN 成 正比 。 


讨论 。 后 级 数组 的 空间 需求 很 明显 ， 但 它 所 需 的 时 间 来 自 于 PJaquet 和 W.Szpankowski 的 一 份 
艰深 而 复杂 的 研究 成 果 。 他 们 证 明了 将 所 有 后 级 排序 的 成 本 渐进 于 将 W 个 随机 字符 串 排 序 的 成 
本 (请 见 5.1.4.4 节 中 的 命题 已 ) 。 


public class SuffixArray 
{ 
private final String[] suffixes; // 后 级 数组 
private final int N; // 字符 串 ( 和 数组 ) 的 长 度 


public SuffixArray(String s) 
{ 
N = s.length(); 
suffixes = new String[N]; 
Tor Cint 1 = 0 1 < Ny Tir) 
suffixes[i] = s.substring(i); 
Quick3way.sort(suffixes); 


} 

public int length() { return N; } 

public String select(int 1) { return suffixes[i]; } 

public int index(int i) { return N - suffixes[i].length(); } 


// 请 见 6.0.3.2 节 框 注 “ 两 个 字符 串 的 最 长 公共 前 缓 ” 
public int lcpCint 1) 
{ return lcp(suffixes[i], suffixes[i-1]); } 
public int rank(String key) 
{ // 二 分 查找 
Ti To = 0% hy SB Ne ls 
while (lo <= hi) 
上 
int mid = lo + (hi - 1o) / 2; 
int cmp = key.compareTo(suffixes[mid]); 
不 (emp' < OF hi 三 id 一 1 
else if (cmp > 0) lo = mid + 1; 
else return mid; 


return 1o; 


} 
} 


SuffixArray API 的 实现 效率 取决 于 Java 的 String 类 的 不 可 改变 性 ， 这 种 性 质 使 得 子 字符 串 实际 上 都 


是 引用 ， 提 取 子 字符 串 只 需 常数 时 间 〈 请 见 正文 ) 。 


6.0.3.8 改进 的 实现 

SuffixArray 的 初级 实现 在 最 坏 情况 下 
的 性 能 很 糟 。 例 如 ， 如 果 所 有 的 字符 都 相同 ， 
后 绥 数 组 的 排序 会 检查 每 个 后 绥 字 符 串 中 的 每 
个 字符 ， 所 需 的 时 间 为 平方 级 别 。 对 于 我 们 用 
作 示 例 的 碱 基 对 序列 字符 串 或 是 自然 语言 的 文 
本 字符 串 ， 这 可 能 不 是 问题 ， 但 算法 对 于 含有 
一 大 串 相 同 字符 的 文本 可 能 会 很 慢 。 此 外 ， 查 
找 最 长 重复 子 字符 串 所 需 的 时 间 可 能 会 是 子 字 
符 串 长 度 的 平方 级 别 ， 因 为 重复 的 子 字符 串 的 
所 有 前 缀 都 会 被 检查 ( 请 见 图 6.0.16 )。 对 于 《 双 
城 记 》 来 说 这 不 是 问题 ， 因 为 其 中 最 长 的 重复 
子 字符 串 为 : 

"s dropped because it would have 


been a bad thing for me in a 
worldly point of view i" 


只 有 84 个 字符 。 然 而 ， 对 于 经 常 含 有 很 
长 的 重复 部 分 的 碱 基 对 序列 来 说 ， 这 就 是 一 
个 严重 的 问题 了 。 如 何 避 免 查找 重复 子 字符 
串 时 出 现 的 这 种 平方 级 别 运 算 呢 ? 幸运 的 是 ， 
PWeiner 在 1973 年 的 研究 显示 我 们 可 以 保证 


输入 字符 串 


a acaag 


最 长 重复 子 字符 由 的 所 有 后 级 字符 串 〔M=5) 
“ang 它们 都 作为 某 个 
aag 环 一 后 级 字符 串 的 前 
a 级 至 少 出 现 过 两 次 


有 序 的 后 级 字符 串 
aacaagtttacaagc 
3 aag Cc 
aag tttacaagc 
acaag Cc 
tttacaagc 


ttt acaag Cc 


IN ww 


ag tttacaagc 
€ 
4 Caag Cc 

caag tttacaagc 
1 9c 

gtttacaagc 
tacaagc 
ttacaagc 
tttacaagc 


比较 成 本 至 少 为 
1+2+.…+M~ M2 


6.0.16 查找 最 长 重复 子 字符 串 的 成 本 是 重复 子 


字符 串 长 度 的 平方 级 别 


在 线性 时 间 内 解决 最 长 重复 子 字 符 串 问题 。Weiner 算法 的 基础 是 构造 一 棵 后 级 字符 串 树 ( 即 一 棵 由 
所 有 后 绥 字 符 串 组 成 的 字典 查找 树 ) 。 如 果 在 每 个 字符 处 使 用 多 个 链接 ， 后缀 树 在 解决 许多 实际 问 
题 时 会 消耗 非常 大 的 空间 ， 这 又 推动 了 后 绥 数 组 的 发 展 。 在 20 世纪 90 年 代 ，U.Manber 和 E.Myers 
演示 了 一 种 构造 后 缀 数组 的 线性 对 数 级 别 的 算法 ， 以 及 一 个 同时 完成 预 处 理 和 对 后 缀 数组 排序 以 
支持 常数 时 间 的 1cpQ 方法 。 之 后 人 们 又 发 明了 若干 线性 时 间 的 后 级 排序 算法 。 经 过 一 些 改造 ， 
Manber-Myers 算法 的 实现 也 能 够 支持 两 个 参数 的 1cp() 方法 ， 以 在 常数 时 间 内 找 出 给 定 的 但 不 一 
定 是 相 邻 的 两 个 后 级 之 间 的 最 长 公共 前 级 。 这 也 是 对 初级 实现 的 一 项 重大 改进 。 这 些 结果 非常 令 人 
惊讶 ， 因 为 它们 所 达到 的 效率 远 远 超出 了 人 们 的 预期 。 


命题 D。 使 用 后 级 数组 ， 我 们 可 以 在 线性 时 间 内 解决 后 级 排序 和 最 长 重复 子 字符 串 问 题 。 


证 明 。 解 决 这 些 问 题 的 优美 算法 已 经 超出 了 本 书 的 范畴 ， 但 你 在 本 书 的 网 站 上 可 以 找到 线性 时 
间 的 SuffixArray 的 构造 函数 和 常数 时 间 的 1cp() 方法 的 实现 。 
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基于 这 些 思想 的 SuffixArray 实现 足以 高 效 解 决 许多 字符 串 处 理 问 题 ， 而 且 用 例 代码 非常 简 
单 ， 如 我 们 的 LRS 和 KWIC 例子 所 示 。 

后 缀 数组 是 自 20 世纪 60 年 代 解 决 KWIC 索引 的 单词 查找 树 以 来 数 十 年 研究 积累 的 成 果 。 我 们 
讨论 的 很 多 种 算法 都 是 许多 研究 者 在 几 十 年 的 实践 中 发 明 的 ， 这 些 问 题 包括 将 《牛津 英语 大 词典 》 
搬 上 互联 网 .第 一 代 搜 索引 擎 以 及 人 类 基因 组 测序 , 等 等 。 这 完全 说 明了 算法 的 设计 和 分 析 的 重要 性 。 


为 0 一 1 一 3 一 5 
分 配 2 个 单位 
的 流量 





盏 所 一 
为 0 一 2 一 4 一 5 分 配 
1 个 单位 的 流量 








将 1 个 单位 的 流量 
从 1 一 3 一 5 重新 
分 配 至 1 一 4 一 5 /YY 


为 0 一 2 一 3 一 5 分 配 


6.0.4 网 络 流 算法 

下 面 我 们 将 讨论 一 种 图 的 模型 ， 它 的 成 功 之 处 不 仅 在 于 为 
我 们 提供 了 能 够 轻松 描述 解决 实际 问题 的 模型 ， 而 且 使 用 这 些 
模型 我 们 能 得 到 许多 高 效 的 算法 来 解决 问题 。 我 们 将 要 讨论 的 
解决 方案 说 明了 两 种 特定 需求 之 间 的 矛盾 ， 即 具有 广泛 适用 性 
的 需求 与 能 够 解决 特殊 问题 的 需求 。 网 络 流 算法 研究 的 迷人 之 
处 在 于 它 紧 凑 优 雅 的 实现 几乎 能 够 同时 达到 这 两 个 目标 。 你 将 
会 看 到 ， 我 们 的 实现 非常 易 懂 而 且 能 够 保证 运行 时 间 与 网 络 大 
小 成 正比 。 

网 络 流 问 题 的 经 典 解决 方案 和 第 4 章 中 介绍 的 那些 图 算法 
紧密 相关 。 基 于 已 有 的 工具 ， 我 们 可 以 编写 非常 精炼 的 程序 来 
解决 它们 。 我 们 已 经 在 许多 问题 中 看 到 ， 良 好 的 算法 和 数据 结 
构 能 够 大 幅 减少 解决 问题 所 需 的 时 间 。 人 们 还 在 积极 研究 该 领 
域 中 更 好 的 算法 和 数据 结构 并 不 断 地 发 明 新 的 方法 。 
6.0.4.1 ”物理 模型 

首先 用 一 个 理想 化 的 物理 模型 来 介绍 几 个 直观 的 概念 。 请 
想象 一 组 相互 连接 大 小 不 一 的 输油管 道 ， 在 连接 处 装 有 能 够 控 
制 原油 流向 的 开关 ， 如 图 6.0.17 所 示 。 

我 们 还 假设 这 个 输 油 网 只 有 一 个 入 口 ( 比如 一 处 油田 ) 和 
一 个 出 口 ( 比如 一 个 大 型 的 炼油 厂 ) ， 所 有 的 输油管 最 终 都 会 
和 它们 相连 。 在 每 个 结 点 处 ， 原 油 流入 量 和 流出 量 都 会 达到 的 
平衡 。 我 们 用 相同 的 单位 衡量 流量 和 管道 的 输送 能 力 ( 例如 ， 
加 仓 每 秒 ) 。 如 果 在 每 个 开关 处 都 有 流入 管道 的 总 流量 和 流出 
管道 的 总 流量 相等 ， 那 么 问题 就 不 存在 了 : 只 需要 将 所 有 输 油 
管 充满 即 可 。 和 否则 ， 虽 然 并 不 是 所 有 管道 都 是 饱和 的 ， 但 原油 
仍然 会 根据 各 个 关节 处 的 开关 设置 在 网 络 中 流动 ， 并 将 在 关节 





1 个 单位 的 流量 ”人民 
» 处 满足 一 个 局 部 平衡 条 件 : 流入 结 点 的 流量 等 于 流出 结 点 的 流 
886 量 ， 请 见 图 6.0.18。 
在 每 个 结 点 处 入 流 
量 都 和 出 流量 相等 ~ 





图 6.0.17 为 输 油 网 络 分 配 流量 


(入 口 和 出 口 除外 ) 





个 


图 6.0.18 流量 网 络 中 的 局 部 平衡 
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例如 ， 如 图 6.0.17 所 示 ， 一 开始 操作 员 可 能 会 将 原油 的 路 径 设 为 0 一 1 一 3 一 5， 这 条 路 线 能 
够 输送 2 个 单位 的 流量 , 然后 再 打开 0 一 2 一 4 一 5 这 条 路 径 上 的 开关 , 又 可 以 输送 1 个 单位 的 流量 。 
因为 0 一 1、2 一 4 和 3 一 5 都 已 经 饱和 ,已 经 无 法 直接 将 更 多 的 原油 从 0 输送 到 5。 但 如 果 调 整 1 
处 的 开关 将 1 一 4 充满， 那么 就 又 可 以 在 3 一 5 空 出 足够 的 空间 使 得 0 一 2 一 3 一 5 可 以 再 增加 1 
个 单位 的 流量 。 即 使 是 这 样 一 个 简单 的 网 络 ， 找 到 能 够 使 得 流量 最 大 化 的 开关 配置 也 并 不 容易 ; 而 
对 于 更 加 复杂 的 网 络 ， 我 们 感 兴趣 的 显然 是 下 面 这 个 问题 : 怎样 配置 所 有 开关 才能 使 从 入 口 到 出 口 
的 流量 最 大 化 ? 我 们 可 以 直接 用 只 含有 一 个 起 点 和 一 个 终点 的 加 权 有 向 图 构造 出 这 个 问题 的 模型 。 
图 中 的 边 对 应 的 是 输油管 道 ， 顶 点 对 应 的 是 配 有 能 够 控制 原油 走向 和 流量 的 开关 结 点 ， 边 的 权重 对 
应 的 是 管道 的 容量 ， 请 见 图 6.0.19。 我 们 假设 边 是 有 向 的 ， 即 原油 在 每 个 管道 中 都 只 能 朝 着 一 个 方 
向 流动 。 每 条 管道 中 都 流动 着 一 定量 的 原油 ， 流 量 小 于 等 于 管道 的 容量 ， 而 每 个 顶点 都 需要 满足 流 
入 量 和 流出 量 相等 。 这 种 抽象 的 流量 网 络 是 一 个 能 够 解决 问题 的 实用 模型 ， 它 能 够 直接 应 用 于 许多 
场景 ， 而 间接 适用 的 则 更 多 。 我 们 有 时 会 用 原油 流 过 管道 的 方式 直观 地 说 明 一 些 基本 的 概念 ， 但 这 
里 的 讨论 同样 适用 于 物流 分 配 的 通道 等 情况 。 鉴 于 我 们 在 各 种 最 短路 径 算法 中 对 “距离 "概念 的 用 法 ， 
在 必要 的 时 候 会 抛弃 图 的 所 有 物理 意义 ， 因 为 我 们 讨论 的 所 有 定义 、 性 质 和 算法 所 基于 的 抽象 模型 
并 不 一 定 遵守 物理 定律 。 事 实 上 ， 人 们 对 网 络 流 问题 的 主要 兴趣 在 于 许多 其 他 问题 都 能 转化 为 这 个 
模型 ， 下 一 个 小 节 中 将 会 详 述 。 





tinyFN .txt 标准 图 流量 图 流量 的 表示 
oss 起 点 ~、 站 0 
we 2 BO 10 
8 i 
0 20 区 人 D0 
02 3.0 3 生 沪 六 洛 
1 3 30 次 并 : 炉 业 0 
14 1.0 $5 2.0 20 
Ey ce 5 a0 TO 
35 20 (4) | 
45 3.0 每 条 边 所 
| © 关联 的 流量 
容量 终点 
图 6.0.19 ”网 络 流 问题 详解 
6.0.4.2 ”定义 


因为 它 广 泛 的 应 用 性 ， 我 们 需要 用 精确 的 语言 说 明 刚才 介绍 的 通俗 的 概念 和 术语 。 


定义 。 一 个 流量 网 络 是 一 张 边 的 权重 《这 里 称 为 容量 ) 为 正 的 加 权 有 向 图 。 一 个 st- 流量 网 络 有 
两 个 已 知 的 顶点 ， 即 起 点 s 和 终点 to 


有 时 我 们 会 认为 某 些 边 的 容量 是 无 限 的 ， 或 者 说 是 没有 容量 限制 的 。 这 表示 不 会 将 其 中 的 流量 
和 它 的 容量 进行 比较 ， 或 者 它 的 容量 必然 比 所 有 流量 都 大 。 我 们 将 流向 一 个 项 点 的 总 流量 (所 有 指 
向 该 顶点 的 边 中 的 流量 之 和 ) 称 为 该 项 点 的 流入 量 ， 流 出 一 个 顶点 的 总 流量 ( 由 该 项 点 指出 的 所 有 
边 中 的 流量 之 和 ) 称 为 该 顶点 的 流出 量 , 而 两 者 之 差 ( 流 人 量 减 去 流出 量 ) 则 为 称 为 该 顶点 的 净 流量 。 
为 了 简化 讨论 ， 我 们 假设 没有 从 t 指 出 的 边 或 是 指向 s 的 边 。 
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定义 。st- 流量 网 络 中 的 st- 流量 配置 是 由 一 组 和 每 条 边 相 关联 的 值 组 成 的 集合 ， 这 个 值 被 称 为 
边 的 流量 。 如 果 所 有 边 的 流量 均 小 于 边 的 容量 且 满 足 每 个 顶点 的 局 部 平衡 ( 即 净 流 量 均 为 零 ， 
s 和 除外 ) ， 那么 就 称 这 种 流量 配置 方案 是 可 行 的 。 


我 们 将 终点 的 流入 量 称 为 st- 流量 的 值 。 命 题 C 将 会 证 明 这 个 值 和 起 点 的 流出 量 是 相等 的 。 有 
了 这 些 定义 ， 就 能 够 正式 地 描述 这 个 基本 问题 了 。 
最 大 st- 流量 。 给 定 一 个 st- 流量 网 络 ， 找 到 一 种 st- 流量 配置 ， 使 得 从 s 到 t 的 流量 最 大 化 。 
为 了 简洁 ， 我 们 将 这 样 的 流量 配置 称 为 最 大 流量 ， 那么 在 网 络 中 寻找 这 种 配置 的 问题 就 是 一 个 
887 最 大 流量 问题 。 在 某 些 应 用 中 ， 只 需要 知道 最 大 流量 的 值 即 可 ,但 一 般 情 况 下 人 们 还 是 希望 知道 达 
888| ”到 该 值 的 具体 流量 配置 ( 各 条 边 的 流量 值 ) 。 


private boolean localEq(FlowNetwork G, int v) 
{ // 检查 每 个 顶点 Vv 的 局 部 平衡 
double EPSILON = 1E-11; 
double netflow = 0.0; 
for (FlowEdge e : G.adj(v)) 
if (v == e.from()) netflow -= e.flow(); 
else netflow += e.flow(); 


return Math.abs(netflow) < EPSILON; 
} 


private boolean isFeasible(FlowNetwork G0) 
{ 
// 确认 每 条 边 的 流量 非 负 且 不 大 于 边 的 容量 
for (int v = 0; Vv < G.VO; v++) 
for (FlowEdge e : G.adj(v)) 
if (e.flow() < 0 || e.flow() > e.capO) 
return false; 


// 检查 每 个 顶点 的 局 部 平衡 
for (int v = 0; Vv < G.V(); v++) 
if (v !=s && Vv != t 8&& !localEq(v)) 
return false; 


return true; 


检查 流量 网 络 中 的 一 种 流量 配置 是 否 可 行 


6.0.4.3 API 
表 6.0.4 和 表 6.0.5 所 示 的 FlowEdge 和 FlowNetwork 简单 扩展 了 第 3 章 中 相应 API。 我 们 将 会 
在 6.0.4.6 节 学 习 FlowEdge 的 一 种 实现 ， 它 的 基础 是 4.3.2 节 中 的 WeightedEdge 类 并 添加 了 一 个 实 
例 变 量 来 保存 边 的 流量 。 流 量 是 有 方向 的 ,但 FlowEdge 的 基 类 并 不 是 WeightedDi rectedEdge， 
因为 它 还 需要 解决 下 面 将 要 描述 的 一 个 更 加 抽象 的 剩余 网 络 问题 。 我 们 需要 使 每 条 边 都 出 现在 它 
的 两 个 顶点 的 邻接 表 中 才能 实现 剩余 网 络 。 剩 余 网 络 能 够 增 减 流量 并 检测 一 条 边 是 否 已 经 饱和 
(无 法 再 增 大 流量 ) 或 者 是 否 为 空 (无 法 再 减 小 流量 ) 。 这 些 抽 象 是 通过 residualCapacity() 
和 addResidualFlow() 方法 实现 的 ， 我 们 将 在 之 后 讨论 它们 。FlowNetwork 的 实现 与 4.3.2 节 中 
WeightedEdge 的 实现 基本 相同 , 因此 这 里 将 它 省 略 。 为 了 简化 文件 格式 , 我 们 约定 起 点 的 编号 为 0， 


终点 的 编号 为 广 1 ,请 见 图 6.0.20。 有 了 这 些 API 之 后 最 大 流量 算法 的 目标 就 很 明确 了 : 构造 一 个 网 络 ， 
计算 所 有 边 中 保存 流量 的 实例 变量 的 值 并 使 得 网 络 中 的 流量 最 大 化 。 框 注 所 示 的 是 检验 一 个 流量 配 
置 方案 是 否 可 行 的 用 例 代 码 ， 一 般 会 将 这 种 检查 作为 最 大 流量 算法 的 最 后 一 步 。 889 


public class 


表 6.0.4 流量 网 络 中 的 边 的 API 


FlowEdge 





double 
double 
double 
double 


String 


FlowEdge(int v, int w, double cap) 


from() 这 条 边 的 起 始 顶 点 
to() 这 条 边 的 目的 顶点 
otherCint v) 边 的 另 一 个 顶点 
capacity() 边 的 容量 

flow() 边 中 的 流量 
residualCapacityTo(int v) v 的 剩余 容量 
addFlowTo(int v, double delta) 将 v 的 流量 增加 de1ta 
toString() 对 象 的 字符 串 表 示 





表 6.0.5 流量 网 络 的 API 





public class 


int 
int 
void 
Iterable<FlowEdge> 
Iterable<FlowEdge> 
String 
tinyFN.txt 
V 
adj[] 
Be 0 
YL 220 1 
Oa 30 
TL 
二 二: 兴 3 
志 " 二 “二 2 
24 1.0 4 
3 20 
4 53 30 










FlowNetwork 

FlowNetwork (int V) 创建 一 个 含有 V 个 顶点 的 空 网 络 
FlowNetwork(In in) 从 输入 流 中 构造 流量 网 络 

vO 顶点 总 数 

EO 边 的 总 数 

addEdge (FlowEdge e) 向 流量 网 络 中 添加 边 e 
adj(Cint v) 从 v 指出 的 边 

edges() 流量 网 络 中 的 所 有 边 
toString() 对 象 的 字符 串 表 示 


指向 相同 FlowEdge 


~ 的 3I 
“ET 
~[z21ali.ofi.o[2 T1311.0lo0.o}[of2 13.0f1.0] 
~ 
~ 
~ 


图 6.0.20 ”流量 网 络 的 表示 890 











Bag 对 象 
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从 0 到 5 的 所 有 路 
径 中 都 含有 一 条 ”化 
饱和 的 边 包 








为 路 径 0 一 2 一 3 增 
加 1 个 单位 的 流量 


从 路 径 1 一 3 减少 

1 个 单位 的 流量 。 / 
(遍历 是 的 方向 LA 

为 3 一 1) 。 


失去 平衡 


为 路 径 1 一 4 一 5 增 
加 1 个 单位 的 流量 


图 6.0.21 一 条 增 广 路 径 (0 
SEE 
1 一 4 一 5) 


6.0.4.5 ”最 大 流 一 


6.0.4.4 ”Ford-Fulkerson 算法 

在 1962 年 ，L.R.Ford 和 D.R.Fulkerson 发 明了 一 种 解决 最 大 流 
量 问题 的 有 效 方法 。 它 是 一 种 沿 着 由 起 点 到 终点 的 路 径 逐 步 增加 流 
量 的 通用 方法 ， 因 此 它 也 是 同类 算法 的 基础 。 在 经 典 文献 中 它 被 称 
为 Ford-Fulkerson 算法 ， 但 它 也 被 称 为 增 广 路 径 算 法 。 考 虑 一 个 st- 
流量 网 络 中 的 任意 一 条 从 起 点 到 终点 的 有 向 路 径 。 假 设 x 为 该 路 径 
上 的 所 有 边 中 未 使 用 容量 的 最 小 值 。 那 么 只 需 将 所 有 边 的 流量 增 大 x 
即 可 将 网 络 中 的 总 流量 至 少 增 大 x。 反 复 这 个 过 程 ， 就 得 到 了 第 一 种 
计算 网 络 中 的 流量 分 配方 法 : 找到 另 一 条 路 径 , 增 大 路 径 中 的 流量 ， 
如 此 反复 , 直到 所 有 从 起 点 到 终点 的 路 径 上 至 少 有 一 条 边 是 饱和 的 。 
( 这 样 在 这 条 路 径 上 就 无 法 继续 增 大 流量 了 。 ) 这 种 方法 在 某 些 情 
况 下 能 够 计算 出 网 络 中 的 最 大 流量 , 但 在 有 些 情况 下 不 行 ， 图 6.0.17 
就 是 这 类 情况 。 为 了 改进 算法 使 之 总 是 能 够 找到 最 大 流量 ， 就 要 用 
另 一 种 更 加 通用 的 方式 增 大 网 络 中 的 流量 ， 即 将 依据 变 为 网 络 所 对 
应 的 无 向 图 中 从 起 点 到 终点 的 路 径 。 在 这 样 的 路 径 中 ， 当 沿 着 路 径 
从 起 点 向 终点 前 进 时 , 经 过 某 条 边 时 的 方向 可 能 和 流量 的 方向 相同 ， 
那 这 条 边 即 为 正 向 边 ; 也 可 能 和 流量 的 方向 相反 ， 那 这 条 边 即 为 逆 
向 边 。 现 在 ， 对 于 任意 非 饱 和 正 向 边 和 非 空 逆向 边 ， 我 们 可 以 通过 
增加 正 向 边 的 流量 和 降低 逆向 边 的 流量 来 增加 网 络 中 的 总 流量 。 流 
量 的 增 量 受 路 径 上 的 所 有 正 向 边 的 未 使 用 容量 最 小 值 和 所 有 逆向 边 
的 流量 的 限制 。 这 样 的 一 条 路 径 被 称 为 增 广 路 径 ， 比 如 图 6.0.21。 
在 新 的 流量 配置 中 ， 路 径 中 至 少 有 一 条 正 向 边 达 到 了 饱和 ， 或 是 至 
少 有 一 条 逆向 边 为 空 。 以 上 所 述 的 过 程 就 是 经 典 的 Ford-Fulkerson 算 
法 ( 增 广 路 径 算法 ) 的 基础 。 我 们 将 它 总 结 如 下 。 


Ford-Fulkerson 最 大 流量 算法 。 网 络 中 的 初始 流量 为 零 ， 沿 着 
任意 从 起 点 到 终点 〈 且 不 含有 饱和 的 正 向 边 或 是 空 北 向 边 ) 的 
增 广 路 径 增 大 流量 ， 直 到 网 络 中 不 存在 这 样 的 路 径 为 止 。 


令 人 惊讶 的 是 (在 关于 流量 性 质 的 一 定 技术 性 限制 之 下 ) ， 无 论 
我 们 如 何 选择 路 径 ， 该 方法 总 能 找 出 最 大 流量 。 如 同 4.3 节 中 讨论 的 贪 
心 最 小 生成 树 算法 和 4.4 节 中 讨论 的 通用 最 短路 径 算法 一 样 ， 它 的 意义 
在 于 证 明了 所 有 同类 算法 的 正确 性 。 我 们 可 以 用 任何 方法 选择 路 径 。 
人 们 发 明了 多 种 算法 来 计算 增 广 路 径 的 序列 ， 以 计算 最 大 流量 。 这 些 
算法 的 不 同 之 处 在 于 它们 得 到 的 增 广 路 径 数量 和 得 到 每 条 路 径 的 成 本 ， 
但 它们 实现 的 都 是 Ford-Fulkerson 算法 并 能 够 找到 网 络 的 最 大 流量 。 


最 小 切 分 ?定理 


为 了 证 明 Ford-Fulkerson 算法 的 任意 实现 所 计算 得 到 的 流量 确实 是 最 大 流量 ， 需 要 证 明 一 个 


GD 也 有 时 译 为 “最 大 流 - 最 小 割 ”。 一 一 编者 注 


潍 


叫做 最 大 流 - 最 小 切 分 的 关键 定理 。 理 解 这 个 定理 是 理解 所 有 网 络 流 算法 中 最 重要 的 一 步 。 顾 名 
思 义 , 定理 的 基础 是 网 络 中 的 流量 和 切 分 的 关系 , 因此 需要 先 定 义 和 切 分 有 关 的 名 词 。 回 顾 4.3 节 ， 
图 的 切 分 是 将 所 有 项 点 分 为 两 个 不 相交 的 集合 ， 而 一 条 横 切 边 则 是 连接 分 别 存 在 于 两 个 集合 中 的 
两 个 顶点 的 一 条 边 。 对 于 流量 网 络 ， 我 们 将 它们 的 定义 提炼 如 下 。 


定义 。st- 切 分 是 一 个 将 顶点 8 和 顶点 上 分 配 于 不 同 集合 中 的 切 分 。 


在 一 个 st- 切 分 中 ， 每 条 横 切 边 要 么 是 一 条 由 含有 
s 的 集合 指向 含有 1 的 集合 的 st- 边 ， 要 么 是 一 条 反方 向 
的 is- 边 。 有 时 我 们 将 sf- 边 的 集合 称 为 一 个 切 分 集 。 在 
流量 网 络 中 ， 一 个 st- 切 分 的 容量 为 该 切 分 的 st- 边 的 容 
量 之 和 ，st- 切 分 的 跨 切 分 流量 (flow across ) 是 切 分 的 
所 有 st- 边 的 流量 之 和 与 所 有 xs- 边 的 流量 之 和 的 差 。 在 
网 络 中 删 去 st- 切 分 的 所 有 st- 边 〈 即 切 分 集 ) 将 会 切断 
所 有 从 s 到 的 路 径 。 而 重新 添加 其 中 的 任意 一 条 边 都 
会 得 到 一 条 从 s 到 1 的 路 径 。 切 分 能 够 抽象 许多 应 用 。 
比如 我 们 的 原油 流量 模型 ， 切 分 会 从 入 口 流向 出 口 的 原 ne 
油 完全 切断 。 如 果 将 切 分 的 容量 看 作 这 么 做 的 成 本 ， 那 
么 切断 流量 的 最 有 效 方法 是 解决 以 下 问题 。 

最 小 st- 切 分 。 给 定 一 个 st- 网 络 ， 找 到 容量 最 小 的 st- 切 分 。 简 单 起 见 ， 我 们 将 这 样 的 切 分 称 
为 最 小 切 分 ， 而 将 在 网 络 中 找到 它 的 问题 称 为 最 小 切 分 问题 。 

最 小 切 分 问题 的 定义 中 并 没有 提 到 流量 ， 而 且 这 些 定义 似乎 和 增 广 路 径 算法 无 关 。 从 表面 上 来 
看 ， 计 算 最 小 切 分 (得 到 一 组 边 ) 似乎 比 计算 最 大 流量 ( 为 所 有 的 边 赋 权 值 ) 更 容易 。 但 实际 上 ， 
最 大 流量 和 最 小 切 分 问题 是 紧密 相关 的 。 增 广 路 径 算法 本 身 就 是 证 明 。 流 量 和 切 分 的 以 下 基本 关系 
即 可 证 明 se- 流量 网 络 中 的 局 部 平衡 即 意味 着 整个 网 络 的 全 局 平衡 ( 推论 一 ) ， 并 且 可 以 得 到 任意 
st- 流量 值 的 上 界 ( 推论 二 ) 。 






Dy 流入 量 和 流出 量 之 
WH 太一 差 旭 为 路 切 分 流量 


命题 E。 对 于 任意 st- 流量 网 络 ， 每 种 st- 切 分 中 的 跨 切 分 流量 都 和 总 流量 的 值 相等 。 


证 明 。 设 C, 为 含有 顶点 s 的 集合 ，C, 为 合 有 顶点 1 的 集合 。 对 C, 使 用 归纳 法 : 当 C, 仅 含有 1 
时 该 命题 成 立 ， 若 将 一 个 顶点 由 C, 移动 到 C,， 则 该 结 点 处 的 局 部 平衡 意味 着 可 以 一 直 保 持 该 性 
质 。 因 此 ， 通 过 移动 顶点 可 以 得 到 任意 st- 切 分 。 


推论 。s 的 流出 量 等 于 1 的 流入 量 ( 即 st- 流量 网 络 的 值 ) 。 
证 了 明 。 令 Cs 为 {s} 即 可 。 


推论 。st- 流量 网 络 的 值 不 可 能 超过 任意 st- 切 分 的 容量 。 
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命题 F (最 大 流量 -最 小 切 分 定理 ) 。 令 /为 一 个 st- 流量 网 络 ， 以 下 三 种 条 件 是 等 价 的 : 
i 存在 某 个 st- 切 分， 其 容量 和 了 的 流量 相等 ; 
这 f 达 到 了 最 大 流量 ; 
诞 了 中 已 经 不 存在 任何 增 广 路 径 。 


证 明 。 根 据 命题 的 推论 ， 我 们 可 以 由 条 件 i 得 到 条 件 ii。 因 为 增 广 路 径 的 存在 意味 着 存在 某 
个 流量 更 大 的 网 络 配置 ， 这 与 了 的 最 大 性 相 冲 突 ， 因 此 由 条 件 这 也 可 以 得 到 条 件 iii。 

但 还 需要 证 明 条 件 这 和 条 件 i 等 价 。 令 C, 为 由 8 通过 所 有 不 含有 任何 饱和 正 向 边 或 空 北向 边 的 
无 向 路 径 可 达 的 所 有 顶点 组 成 的 集合 , 令 Ci 为 其 余 的 顶点 的 集合 ,tf 必然 存在 于 CC 中 ,因此 (C,,G)) 
为 一 个 st- 切 分 。 它 的 切 分 集 完全 由 饱和 正 向 边 和 空 逆向 边 组 成 。 该 切 分 的 跨 切 分 流量 和 它 的 容 
量 相等 〈 因 为 所 有 正 向 边 都 是 饱和 的 ， 而 所 有 逆向 边 都 是 空 的 ) ， 即 等 于 网 络 中 的 总 流量 (由 
命题 瑟 可 得 ) 。 


推论 〈 完 整 性 ) 。 当 所 有 容量 均 为 整数 时 ， 存 在 一 个 整数 值 的 最 大 流量 ， 而 Ford-Fulkerson 算 
法 能 够 找 出 这 个 最 大 值 。 


证 明 。 每 条 增 广 路 径 都 会 将 总 流量 增 大 某 个 正 整数 值 ( 正 向 边 中 未 使 用 容量 的 最 小 值 和 逆向 边 
的 容量 都 是 正 整数 ) 。 


即使 所 有 边 的 容量 均 为 整数 ， 我 们 也 可 以 设计 出 能 够 达到 最 大 流量 的 非 整 数 配置 ， 但 这 里 不 
需要 考虑 这 样 的 配置 。 从 理论 角度 来 说 ， 下 面 的 意见 是 很 重要 的 : 我 们 已 经 演示 过 并 且 实 际 情况 
也 需要 允许 容量 和 流量 可 以 为 实数 ， 但 它 会 导致 一 些 异常 情况 。 例 如 ， 已 知 Ford-Fulkerson 算法 
在 原则 上 可 能 得 到 无 穷 多 的 增 广 路 径 以 至 于 无 法 收敛 到 某 种 最 大 流量 的 配置 。 我 们 讨论 的 这 个 版 
本 总 是 可 以 收敛 的 ， 即 使 是 实数 值 的 容量 和 流量 也 不 例外 。 无 论 我 们 用 什么 方法 寻找 增 广 路 径 ， 
无 论 我 们 找到 了 什么 样 的 路 径 ， 最 后 总 是 能 够 得 到 一 种 不 存在 任何 增 广 路 径 的 流量 配置 ， 即 最 大 
流量 的 配置 。 
6.0.4.6 ”剩余 网 络 

通用 的 Ford-Fulkerson 算法 并 没有 指定 寻找 增 广 路 径 的 方法 。 如 何 才 能 找到 不 含有 饱和 正 向 边 
和 空 逆向 边 的 路 径 呢 ? 为 此 ， 我 们 给 出 如 下 定义 。 


Oo 
Re) 
~ 


定义 。 给 定 某 个 st- 流量 网 络 和 其 st- 流量 配置 ， 这 种 配置 下 的 剩余 网 络 中 的 顶点 和 原 网 络 相同 。 
原 网 络 中 的 每 条 边 都 对 应 着 剩余 网 络 中 的 1 ~ 2 条 边 。 它 的 定义 如 下 : 对 于 原 网 络 中 的 每 条 从 
顶点 V 到 w 的 边 e， 令 大 表示 它 的 流量 、c. 表 示 它 的 容量 。 如 果 天 为 正 ， 将 边 w 一 v 加 入 剩余 
网 络 且 容 量 为 大 如 果 拓 小 于 co， 将 边 v 一 w 加 入 剩余 网 络 且 容 量 为 c。-feo 


如 果 从 v 到 w 的 边 e 为 空 ( 即 大 为 0) ， 剩 余 网 络 中 就 具有 一 条 容量 为 co 的 边 v 一 w 与 之 对 应 ; 
如 果 该 边 饱 和 ( 即 大 等 于 c. ) ,剩余 网 络 就 只 有 一 条 容量 为 上 的 边 w 一 v 与 之 对 应 ; 如 果 它 既 不 为 空 ， 
也 不 饱和 ， 那 么 剩余 网 络 中 将 含有 相应 容量 的 v 一 w 和 w 一 v。 请 见 图 6.0.22。 





流量 的 表示 剩余 网 络 
GE 256 0 
逆向 边 
站 六 0 Hi 
13 3.0 2.0 NS 一 (实际 流量 ) 
工人 
23 1.0 0.0 
2 0 i 
于 
和 学 3.0 .0 
公牛 
容量 流量 -0 下 向 边 
(剩余 容量 ) 


6.0.22 ”网 络 流 问题 详解 


乍 一 看 ， 剩 余 网 络 有 些 让 人 困惑 ， 因 为 与 流量 对 应 的 边 的 方向 却 和 流量 本 身 相反 。 正 向 边 表示 
的 是 剩余 的 容量 ( 即 如 果 选 择 从 这 条 边 通行 所 能 增长 的 流量 ) ; 逆向 边 表示 了 实际 流量 ( 即 如 果 选 
择 从 这 条 边 通行 将 会 减少 的 流量 ) 。 后 面 框 注 中 的 代码 给 出 了 在 FlowEdge 类 中 实现 剩余 网 络 这 种 
抽象 所 需 的 方法 。 通 过 这 些 实现 ， 虽 然 该 算法 处 理 的 是 剩余 网 络 ， 但 它 实 际 上 是 在 检查 所 有 剩余 的 
容量 并 ( 通过 边 的 引用 ) 修正 流量 配置 。 


流量 网 络 中 的 边 〈 剩 余 网 络 ) 


public class FlowEdge 


{ 

private final int v; // 边 的 起 点 
private final int w; // 边 的 终点 
private final double capacity; // 容量 
private double flow; // 流量 
public FlowEdge(int v, int w, double capacity) 
{ 

this.yv = Vs 

this.w = w; 

this.capacity = capacity; 

this.flow = 0.0; 
} 
public int from() { return v; } 
public int toO) { return w; } 
public double capacity() { return capacity; } 
public double flowO) { return flow; 二 
public int other(Cint vertex) 
// 同 Edge 类 
public double residualCapacityTo(int vertex) 
{ 

i 不 (vertex == v) return flow; 

else if (vertex == w) return capacity- flow; 


else throw new RuntimeException("lInconsistent edge”): 


public void addResidualFlowTo(int vertex, double delta) 
{ 


if (vertex == Vv) flow -= delta; 


else if (vertex == w) flow += delta; 
:se throw new RuntimeException( Inconsistent edge” ) 
} 


public String toString() 
{ return String.format(“%d->%d %.2f %.2f”, v, w, capacity, flow); } 
} 
这 里 的 FlowEdge 类 的 基础 是 4.4 节 中 对 加 权 边 的 DirectedEdge 类 的 实现 (请 见 4.4.2 节 框 注 “ 加 
权 有 向 边 的 数据 类 型 ”) ， 它 添加 了 一 个 实例 变量 flow 和 两 个 方法 来 实现 了 剩余 网 络 。 








我 们 可 以 使 用 from() 和 other() 方法 处 理 两 个 方向 的 边 : e.other(v) 可 以 返回 e 的 两 个 
顶点 中 和 v 相对 的 男 一 个 顶点 。residualCapacityTo() 和 residualFlowTo() 方法 实现 了 剩余 
网 络 。 剩 余 网 络 使 得 我 们 可 以 通过 图 中 的 搜索 算法 寻找 增 广 路 径 ， 这 是 因为 在 剩余 网 络 中 所 有 从 
起 点 到 终点 的 路 径 都 是 原 流 量 网 络 中 的 一 条 增 广 路 径 。 沿 着 增 广 路 径 增 大 流量 意味 着 修改 剩余 网 
络 。 例 如 ， 至 少 有 一 条 路 径 上 的 边 变 得 饱和 或 变 为 空 ， 因 此 在 剩余 网 络 中 至 少 有 一 条 边 将 会 改变 
方向 或 者 消失 。( 我们 使 用 的 是 抽象 的 剩余 网 络 , 因此 只 会 检查 正 容量 ,不 需要 实际 插入 或 删除 边 。) 


private boolean hasAugmentingPath(FlowNetwork G, int s, int t) 


{ 
marked = new boolean[G.VO]; // 标记 路 径 已 知 的 顶点 
edgeTo = new FlowEdge[G.V()]; // 路 径 上 的 最 后 一 条 边 
Queue<Integer> q = new Queue<Integer>(); 
marked[s] = true; // 标记 起 点 
q.enqueue(s); // 并 将 它 入 列 
while (!q.isEmpty()) 
E 


int v = q.dequeue(); 
for (FlowEdge e : G.adj(v)) 
{ 
int w = e.other(v); 
if (e.residualCapacityTo(w) > 0 && !marked[w]) 


€ // (在 剩余 网 络 中 ) 对 于 任意 一 条 连接 到 一 个 未 
被 标记 的 顶点 的 边 
edgeTo[w] = e; // 保存 路 径 上 的 最 后 一 条 边 
marked[w] = true;  // 标记 W， 因 为 路 径 现 在 是 已 知 的 了 
q.enqueue(w); // 将 它 入 列 
} 
} 
return marked[t]; 


了 
在 剩余 网 络 中 通过 广度 优先 搜索 寻找 增 广 路 径 


6.0.4.7 ”最 短 增 广 路 径 算 法 

对 Ford-Fulkerson 算 法 最 简单 的 实现 可 能 就 是 最 短 增 广 路 径 算 法 了 ( 最 短 指 的 是 路 径 长 度 最 小 ， 
而 非 流量 或 是 容量 ) 。J.Edmonds 和 R.Karp 在 1972 年 发 明了 这 个 算法 。 这 里 ， 增 广 路 径 的 查找 等 
价 于 剩余 网 络 中 的 广度 优先 搜索 (BFS ) ， 如 4.1 节 所 述 。 你 也 可 以 将 hasAugmentingPath() 
的 实现 与 广度 优先 搜索 实现 的 算法 4.2 比较 一 下 。 ( 剩余 网 络 是 有 向 图 ， 因 此 这 实际 上 是 一 个 
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有 向 图 处 理 算法 。 ) 这 个 方法 为 完整 实现 剩余 网 络 的 算法 6.14 打下 了 基础 ， 它 非常 简洁 。 为 了 
方便 ,我们 将 这 个 方法 称 为 最 短 增 广 路 径 的 最 大 流量 算法 。 它 处 理 样 例 数据 的 详细 轨迹 如 图 6.0.23 


算法 6.14 最短 增 广 路 径 的 Ford-Fulkerson 最 大 流量 算法 。 





public class FordFulkerson 
E 
private boolean[] marked; // 在 剩余 网 络 中 是 否 存 在 从 5S 到 V 的 路 径 ? 
private FlowEdge[] edgeTo;  // 从 Ss 到 Vv 的 最 短路 径 上 的 最 后 一 条 边 
private double value; // 当前 最 大 流量 
public FordFulkerson(FlowNetwork G, int s, int +t) 
{ // 找 出 从 s 到 t 的 流量 网 络 G 的 最 大 流量 配置 
while (hasAugmentingPath(G, s, t)) 
{ // 利用 所 有 存在 的 增 广 路 径 
// 计算 当前 的 瓶颈 容量 
double bottle = Double.POSITIVE_INFINITY; 
for (int v= t; v != siVv = edgeTo[v].other(Cv)) 
bottle = Math.min(bottle, edgeTo[v].residualCapacityTo(v)); 
// 增 大 流量 
for (int v= t; Vv != s; Vv = edgeTo[v] .other(v)) 
edgeTo[v].addResidualFlowTo(v, bottle); 


value += bottle; 


} 


public double valueO) { return value; } 
public boolean inCut(int v) { return marked[v]; } 


public static void main(String[] args) 

〖 
FlowNetwork G = new FlowNetwork(new In(args[0])); 
TV 
FordFulkerson maxflow = new FordFulkerson(G, s, t); 


StdOut.printin("Max flow from "+Ss+" to" + t); 
for (int v = 0; v < G.VO; v++) 
for (FlowEdge e : G.adj(v)) 
if ((v == e.from()) && e.flow() > 0) 
StdOut.printin(" "+ e); 
StdOut.printin("Max flow value = " + maxflow.value()); 


. 


这 段 Ford-Fulkerson 算法 的 实现 会 在 剩余 网 络 中 寻找 最 短 增 广 路 径 ， 找 出 路 径 上 的 瓶颈 容量 并 增 大 
该 路 径 上 的 流量 ， 如 此 往复 直至 不 再 存在 从 起 点 到 终点 的 增 广 路 径 为 止 。 898 





初始 的 空 流量 网 络 对 应 的 剩余 网 络 





沿 着 路 径 0 一 1 一 3 一 5 
增加 2 个 单位 的 流量 







% java FordFulkerson tinyFN.txt 

Max flow from 0 to 5 
0->2 
0->1 
1->4 
1->3 
2->3 
2->4 
3->5 
4->5 

Max flow value = 4.0 





沿 着 路 径 0 一 2 一 4 一 5 
增加 1 个 单位 的 流量 /0 
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沿 着 路 径 0 一 2 一 3 一 1 一 4 一 5 
增加 1 个 单位 的 流量 / 
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图 6.0.23 ”最 短 增 广 路 径 的 FordFulkerson 算法 的 轨迹 
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图 6.0.24 一 个 较 大 的 流量 网 络 中 的 最 短 增 广 路 径 


6.0.4.8 性 能 
图 6.0.24 所 示 的 是 一 个 更 大 的 例子 。 从 图 中 我 们 可 以 清晰 地 看 到 ， 增 广 路 径 的 长 度 在 慢 慢 变 长 。 
这 是 分 析 算 法 性 能 的 第 一 个 要 点 。 


命题 G。 最 短 增 广 路 径 的 Ford-Fulkerson 最 大 流量 算法 在 处 理 含 有 严 个 顶点 和 已 条 边 的 流量 网 
络 时 找到 的 增 广 路 径 最 多 为 EV12 条 。 


简略 证 明 。 每 条 增 广 路 径 中 都 含有 一 条 关键 边 一 一 这 条 边 在 剩余 网 络 中 会 被 删 掉 ， 因 为 它 对 应 
的 可 能 是 一 条 将 会 被 充满 的 正 向 边 或 是 将 会 被 抽 干 的 逆向 边 。 每 当 一 条 边 成 为 关键 边 时 ， 通 过 
它 的 增 广 路 径 的 长 度 就 会 加 2 (请 见 练习 6.39) 。 因 为 增 广 路 径 的 最 大 长 度 为 巨 且 每 条 边 最 多 
可 能 出 现在 V12 条 增 广 路 径 上 ， 因 此 增 广 路 径 的 总 数 最 多 为 EV12。 


推论 。Ford-Fulkerson 算法 的 最 短 增 广 路 径 实现 所 需 的 时 间 在 最 坏 情况 下 为 FE2/2。 
证 明 。 广 度 优先 搜索 最 多 会 检查 瓦 条 边 。 


命题 G 所 述 的 上 界 是 非常 保守 的 。 例 如 ， 图 6.0.24 中 含有 11 个 顶点 和 20 条 边 ， 该 上 界 说 明 算 
法 使 用 的 增 广 路 径 最 多 为 110 条 ， 但 实际 上 它 只 用 了 14 条 。 
6.0.4.9 ”其 他 实现 

Edmonds 和 Karp 发 明 的 另 一 种 Ford-Fulkerson 算法 的 实现 是 优先 处 理 能 够 将 流量 增 大 最 多 的 
增 广 路 径 。 简 单 起 见 ， 我 们 将 这 种 方法 称 为 最 大 容量 增 广 路 径 的 最 大 流量 算法 。 对 于 这 种 ( 以 及 其 
他 一 些 ) 方法 ， 可 以 通过 稍 加 修改 Dijkstra 的 最 短路 径 算法 、 由 优先 队列 得 到 剩余 容量 最 大 的 正 向 
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边 或 是 流量 最 大 的 逆向 边 来 实现 。 或 者 也 可 以 寻找 最 长 增 广 路 径 ， 或 是 随机 选择 增 广 路 径 。 要 完整 
分 析 哪 种 才 是 最 佳 的 方法 是 一 个 复杂 的 任务 ， 因 为 它们 的 运行 时 间 取 决 于 : 

口 找到 最 大 流量 所 需 检 查 的 增 广 路 径 数 量 ; 

口 寻找 每 条 增 广 路 径 所 需 的 时 间 。 

这 些 量 的 变化 可 能 很 大 ， 和 流量 网 络 本 身 以 及 图 的 搜索 策略 有 关 。 人 们 还 发 明了 解决 最 大 流 
量 问题 的 其 他 几 种 算法 ， 其 中 一 些 在 实践 中 和 Ford-Fulkerson 算法 不 分 高 下 。 但 是 ， 为 最 大 流量 
算法 进行 数学 建 模 来 验证 这 些 猜 想 是 一 个 非常 困难 的 问题 。 各 种 最 大 流量 算法 的 分 析 仍然 是 一 个 
有 趣 而 活路 的 研究 领域 。 从 理论 角度 来 说 ,我 们 已 经 得 到 了 各 种 最 大 流量 算法 在 最 坏 情 况 下 的 上 
界 ， 但 这 些 上 界 大 多 远 远 高 于 实际 应 用 中 所 观察 到 的 真实 成 本 ， 而 且 也 比较 小 的 下 界 (线性 级 别 ) 
高 出 许多 。 最 大 流量 问题 的 已 知 成 本 和 潜在 成 本 之 间 的 差距 比 〈 目前 ) 本 书 中 讨论 过 的 任何 问题 
都 要 大 。 

最 大 流量 算法 的 实际 应 用 仍然 既是 一 门 艺术 也 是 一 门 科 学 。 它 的 艺术 之 处 在 于 为 特定 的 应 用 场 
景 选择 最 有 效 的 策略 ; 它 的 科学 之 处 在 于 对 问题 本 质 的 理解 。 是 否 存在 能 够 在 线性 时 间 内 解决 最 大 
流量 问题 的 新 数据 结构 和 算法 呢 ? 或 者 我 们 能 否 证 明 它 们 不 存在 呢 ? 请 见 表 6.0.6。 


表 6.0.6 各 种 最 大 流量 算法 的 性 能 特点 
在 含有 VV 个 顶点 和 EE 条 边 的 流量 网 络 中 (各 边 容量 最 大 为 C) ， 





和 算法 的 运行 时 间 在 最 坏 情况 下 的 增长 数量 级 
最 短 增 广 路 径 的 Ford-Fulkerson 算法 VE’ 
最 大 容量 的 Ford-Fulkerson 算法 FlogC 
预 流 推进 算法 ( preflow-push ) EVlog(E/V) 
未 知 算法 ? V+E? 


6.0.5 ”问题 归 约 

本 书 中 ， 我 们 一 直 注重 说 明 某 个 特定 的 问题 ， 然 后 给 出 解决 问题 的 算法 和 数据 结构 。 在 许多 情 
况 下 (以 下 列 出 了 很 多 ) ， 我 们 发 现 如 果 能 够 将 某 个 问题 转化 为 已 经 解决 的 问题 的 某 个 形式 ， 那 么 
解决 它 将 会 更 容易 。 在 研究 已 经 学 习 过 的 各 种 算法 与 形形色色 的 各 种 问题 之 间 的 关系 之 前 ， 我 们 应 
该 正式 定义 这 个 解决 问题 的 过 程 。 


定义 。 如 果 能 够 用 解决 问题 B 的 算法 得 到 一 个 解决 问题 A 的 算法 ， 则 说 问题 A 能 够 被 归 约 为 
问题 B。 


这 个 概念 在 软件 开发 中 显然 并 不 陌生 : 当 你 使 用 一 个 库 方法 解决 某 个 问题 时 ， 正 是 在 将 所 需要 
解决 的 问题 归 约 为 该 库 方法 所 解决 的 问题 。 本 书 中 ,我们 一 直 非 正式 地 将 能 够 归 约 为 给 定 问题 的 其 
他 问题 称 为 应 用 。 
6.0.5.1 排序 问题 

我 们 在 第 2 章 第 一 次 遇 到 了 问题 的 归 约 ， 当 时 我 们 想 说 明 的 是 高 效 的 排序 算法 可 以 用 于 解决 许 
多 看 起 来 与 排序 无 关 的 其 他 问题 。 例 如 ， 在 许多 有 趣 的 问题 中 ， 我 们 研究 了 以 下 几 个 问题 。 

口 寻找 中 位 数 。 给 定 一 组 数字 的 集合 ， 找 出 中 位 数 。 


口 不 重复 的 值 。 在 给 定 的 集合 中 找 出 所 有 不 同 的 值 。 
口 最 小 平均 完成 时 间 的 调度 问题 。 给 定 一 组 任务 的 集合 和 它们 的 时 耗 ， 在 一 个 处 理 器 上 应 该 如 
何 安排 调度 使 得 它们 的 平均 完成 时 间 最 小 呢 ? 


命题 H。 以 下 问题 可 以 被 归 约 为 排序 问题 : 
口 寻找 中 位 数 ; 
口 统计 不 同 的 值 ; 
口 最 小 平均 完成 时 间 的 调度 问题 。 


证 明 。 请 见 2.5.3.4 节 和 练习 2.5.12。 


我 们 还 需要 注意 归 约 的 成 本 。 例 如 ， 我 们 可 以 在 线性 时 间 内 找到 一 组 数 的 中 位 数 ， 但 是 如 果 归 
约 为 排序 问题 ， 那 就 需要 线性 对 数 级 别 的 时 间 。 即 使 是 这 样 ， 额 外 的 成 本 或 许 还 是 可 以 接受 的 ， 因 
为 我 们 可 以 使 用 已 有 的 排序 实现 。 排 序 的 价值 在 于 以 下 3 个 方面 : 
口 它 有 其 自身 的 实用 性 ; 
口 我 们 的 算法 能 够 有 效 解决 排序 问题 ; 
口 许多 问题 都 能 够 归 约 为 排序 问题 。 
一 般 来 说 ， 我 们 将 具有 这 些 性 质 的 问题 称 为 问题 解决 模型 。 和 成 熟 的 库 一 样 ， 设 计 良 好 的 问题 
解决 模型 能 够 大 大 扩展 我 们 能 够 处 理 的 问题 域 。 但 是 ， 在 过 度 关注 于 问题 解决 模型 时 容易 犯 下 的 一 
个 错误 被 称 为 Maslow 的 锤子 ， 这 是 由 A.Maslow 在 20 世纪 60 年 代 提 出 并 广为人知 的 一 句 话 : 如 
果 你 有 一 把 锤子 ， 那 么 什么 东西 都 看 起 来 都 像 颗 钉 子 。 如 果 沉 迷 于 若干 问题 解决 模型 ， 我 们 就 可 能 
将 它们 当 作 Maslow 的 锤子 一 样 来 解决 遇 到 的 所 有 问题 ， 从 而 妨碍 了 发 现 解决 问题 的 更 好 方法 ， 甚 
至 是 新 的 问题 解决 模型 。 尽 管 本 书 所 讨论 的 模型 都 非常 重要 、 实 用 且 应 用 广泛 ， 但 是 考虑 各 种 其 他 
可 能 性 仍然 是 明智 的 选择 。 
6.0.5.2 “最短 路径 问题 
在 4.4 节 学 习 最 短路 径 算法 时 也 遇 到 了 问题 归 约 的 概念 。 在 许多 有 趣 的 问题 中 ,我们 研究 了 以 下 几 个。 
口 无 向 图 中 的 单 点 最 短路 径 问 题 。 给 定 一 幅 加 权 无 向 图 和 起 点 s, 其 中 所 有 权重 非 负 , 回答 “是 
否 存在 从 s 到 给 定 目的 顶点 v 的 路 径 ? 如 果 有 ， 找 出 这 样 一 条 最 短路 径 (总 权重 最 小 ) 。” 
等 类 似 问 题 。 

口 优先 级 限制 下 的 并 行 任 务 调度 问题 。 给 定 一 组 需要 完成 的 任务 ， 以 及 一 组 关于 任务 完成 的 先 
后 次 序 的 优先 级 限制 。 在 满足 限制 条 件 的 前 提 下 应 该 如 何在 若干 相同 的 处 理 器 上 ( 数量 不 限 ) 
安排 任务 并 在 最 短 的 时 间 内 完成 所 有 任务 ? 

口 套 汇 。 在 给 定 的 汇率 表 中 找 出 一 个 套 汇 的 机 会 。 

和 刚才 一 样 ， 后 两 个 问题 看 起 来 和 最 短路 径 问 题 并 没有 直接 的 关系 ， 但 最 短路 径 算法 能 够 有 效 
地 解决 它们 。 这 些 示 例 问题 虽然 都 很 重要 ， 但 并 没有 什么 代表 性 。 许 多 非常 重要 的 问题 ( 太 多 了 ， 
无 法 一 一 讨论 ) 都 能 够 归 约 为 最 短路 径 问 题 一 一 这 是 一 个 非常 有 效 而 重要 的 问题 解决 模型 。 
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命题 1。 以 下 问题 能 够 归 约 为 加 权 图 中 的 最 短路 径 问题 : 
口 非 负 权重 的 无 向 图 中 的 单 点 最 短路 径 问 题 ; 
口 优先 级 限制 下 的 并 行 调度 问题 ; 
口 套 汇 问题 ; 
口 其 他 许多 问题 。 


例证 。 请 见 4.4.4.2 节 命 厌 R、4.4.5.2 节 框 注 “ 优 先 级 调度 示例 问题 的 关键 路 径 方法 ”和 4.4.6.9 
节 框 注 “ 货 币 兑 换 中 的 套 汇 ”。 


6.0.5.3 ”最 大 流量 问题 
最 大 流量 问题 在 许多 情况 下 同样 非常 重要 。 我 们 可 以 去 掉 流 量 网 络 中 的 各 种 限制 并 解决 
相关 的 流量 问题 ， 也 可 以 用 它 解决 其 他 网 络 或 者 图 的 处 理 问题 ， 其 至 是 非 网 络 问 题 。 例 如 以 
下 问题 。 
口 就 业 安 置 。 大 学 里 的 就 业 指导 中 心 会 为 学 生 安排 公司 面试 。 这 些 面 试 的 结果 是 一 系列 工作 机 
会 。 假 设 一 次 成 功 的 面试 表示 了 学 生 和 公司 之 间 的 相互 认可 且 学 生 将 会 接受 这 份 职位 ， 那 么 
这 样 的 就 业 安置 数量 当然 是 越 多 越 好 。 有 可 能 为 每 一 位 学 生 安排 一 份 工作 吗 ? 最 多 可 能 安排 
多 少 份 工作 ? 
口 产品 配送 。 假 设 有 一 家 只 生产 一 种 产品 的 公司 ， 它 拥有 能 够 生产 产品 的 工厂 ， 能 够 暂时 储存 
产品 的 物流 分 配 中 心 以 及 销售 商品 的 零售 直 营 店 。 公 司 需要 定期 将 产品 通过 物流 分 配 中 心 分 
发 到 各 地 的 直 营 店 ， 而 各 地 的 分 配 通道 的 配送 能 力 各 有 不 同 。 有 可 能 使 各 地 仓库 的 供应 量 与 
直 营 店 的 销售 量 相 匹配 吗 ? 
口 网 络 可 靠 性 。 一 种 简化 的 模型 可 以 将 一 个 计算 机 网 络 看 成 是 通过 交换 机 连接 所 有 电脑 的 一 组 
主干 网 ， 任 意 两 台电 脑 都 能 够 通过 交换 机 和 主干 线 相互 连接 。 切 断 某 一 对 计算 机 之 间 的 连接 
最 少 需要 切断 多 少 条 主干 线 ? 
同样 ， 这 些 问题 各 不 相关 ， 也 看 起 来 不 属于 流量 网 络 的 问题 范畴 ， 但 它们 都 可 以 被 归 约 为 最 大 
流量 问题 。 


命题 J。 以 下 问题 可 以 归 约 为 最 大 流量 问题 : 
口 就 业 安 置 ; 
口 产品 配送 ; 
口 网 络 可 靠 性 ; 
口 其 他 许多 问题 。 


例证 。 这 里 只 证 明 第 一 个 问题 (又 叫做 最 大 二 分 图 匹配 问题 ) ， 其 他 的 将 留 作 练习 。 我 们 可 以 
为 给 定 的 就 业 安置 问题 构造 一 个 对 应 的 最 大 流量 问题 。 图 中 的 所 有 边 均 由 学 生 指 向 公司 ， 然 后 
添加 一 个 起 点 且 对 于 每 个 学 生 都 有 一 条 从 起 点 指向 他 的 边 ， 添 加 一 个 终点 且 对 于 每 个 公司 都 有 
一 条 由 公司 指向 终点 的 边 。 图 中 的 每 条 边 的 容量 都 是 1， 请 见 图 6.0.25。 现 在 ， 这 个 网 络 中 的 最 
大 流量 问题 的 每 个 解 都 是 对 应 的 二 分 图 匹配 问题 的 的 解 ( 请 见 命 题 F 的 推论 ) 。 匹 配 中 的 所 有 


边 的 两 个 顶点 都 正好 分 别 属于 学 生 和 公司 两 个 集合 且 它 们 在 最 大 流量 配置 中 都 会 是 饱和 的 。 首 
先 ， 网 络 流 总 是 会 给 出 一 个 合法 的 匹配 : 因为 每 个 顶点 都 既 有 一 条 流入 边 〔 来 自 于 起 点 ) 和 一 
条 流出 边 ( 指向 终点 ) 且 经 过 的 流量 最 多 为 1, 所 以 每 个 顶点 最 多 只 能 出 现在 一 个 匹配 中 。 其 次 ， 
匹配 不 可 能 含有 更 多 的 边 ， 因 为 任意 类 似 的 匹配 都 意味 着 一 个 比 最 大 流量 算法 的 结果 更 好 的 流 
量 配置 。 





二 分 图 匹配 问题 匹配 ( 解 ) 
1 i 7 obe . ek 
Bi Oe 流量 网 络 的 构造 最 大 流量 配置 Alice — Amazon 
Amazon Bob Bob — Yahoo 
Feeback Dave Carol 一 Facebook 
2 Bob 8 Amazon Dave 一 Adobe 
Adobe Alice Eliza 一 Google 
Amazon Bob Frank— IBM 
Yahoo Dave 
3 Carol 9 Facebook 
Facebook Alice 
Google Carol 
IBM 10 Google 
4 Dave Carol 
Adobe Eliza 
Amazon 11 JBM 
5 Eliza Carol 
Google Eliza 
IBM Frank 
Yahoo 12 Yahoo 
6 Frank Bob 
IBM Eliza 
Yahoo Frank 


图 6.0.25 将 二 分 图 匹配 问题 归 约 为 网 络 流 问题 示例 


例如 ， 如 图 6.0.26 所 示 ， 一 个 增 广 路 径 最 大 流量 算法 可 能 会 使 用 路 径 s 一 1 一 7 一 t、s 一 
站 区 0 
计算 得 到 匹配 1-8、2-12、3-9、4-7 和 6-11。 因 此 ， 在 示例 中 可 以 找到 一 种 将 所 有 学 生 和 工作 相 
匹配 的 方法 。 每 条 增 广 路 径 都 会 使 一 条 由 起 点 指出 的 边 和 一 条 指向 终点 的 边 充满 。 我 们 可 以 注意 到 ， 
这 些 边 都 不 是 逆向 边 ， 因 此 最 多 只 存在 VV 条 增 广 路 径 ， 总 运行 时 间 与 VE 成 正比 。 

最 短路 径 和 最 大 流量 算法 都 是 重要 的 问题 解决 模型 ， 因 为 它们 和 排序 算法 有 着 相同 的 性 质 : 

口 它们 有 其 自身 的 实用 性 ; 

口 我 们 的 算法 能 够 有 效 解决 它们 ; 

口 许多 问题 都 能 够 归 约 为 这 些 模型 。 

这 段 简短 的 讨论 只 是 为 了 介绍 这 个 概念 。 如 果 你 能 学 习 一 门 有 关 运 筹 学 的 课程 ， 就 将 会 学 到 许 
多 能 够 归 约 为 这 些 模 型 的 其 他 问题 以 及 更 多 的 问题 解决 模型 。 
6.0.5.4 ”线性 规划 

运筹 学 的 基础 之 一 是 线性 规划 (Linear Programming，LP ) ， 请 见 图 6.0.27。 它 的 主要 思想 是 
将 给 定 的 问题 归 约 为 以 下 数学 形式 。 

线性 规划 。 给 定 一 个 由 M 个 线性 不 等 式 组 成 的 集合 和 含有 个 决策 变量 的 线性 等 式 ， 以 及 一 
个 由 该 YX 个 决策 变量 组 成 的 线性 目标 函数 ， 找 出 能 够 使 目标 函数 的 值 最 大 化 的 一 组 变量 值 ， 或 者 证 
明 不 存在 这 样 的 赋值 方案 。 











图 6.0.26 ”二 分 图 匹 
配 中 的 增 
广 路 径 





线性 规划 是 一 种 极为 重要 的 问 根据 约束 条 件 
题解 决 模型 ， 因 为 : re 
口 非常 多 的 重要 问题 都 能 够 归 ds 
约 为 线性 规划 问题 ; 0<ce<3 
口 我 们 的 算法 能 够 有 效 解决 线 Ee 
性 规划 问题 。 oe 
在 讨论 其 他 问题 解决 模型 时 0< sg< 2 
的 “该 问题 有 其 自身 的 实用 性 ” ee 
就 不 必 提 了 ， 因 为 能 够 归 约 为 线 i 
性 规划 问题 的 实际 问题 实在 是 太 A 
允 了 。 a 


图 6.0.27 线性 规划 问题 示例 


命题 K。 以 下 问题 均 可 归 约 为 线性 规划 问题 : 
口 最 大 流量 问题 ; 
口 最 短路 径 问 题 ; 
口 许多 许多 其 他 问题 。 


例证 。 我 们 只 证 明 第 一 个 问题 并 将 第 二 个 留 作 练习 6.49。 考 虑 一 个 
由 不 等 式 和 等 式 所 组 成 的 系统 ， 其 中 每 一 个 约束 变量 都 对 应 着 一 条 
边 ， 两 个 不 等 式 也 对 应 着 一 条 边 ， 每 一 个 等 式 对 应 着 一 个 顶点 《起 
点 和 终点 除外 ) 。 约 束 变量 的 值 就 是 边 中 的 流量 ， 不 等 式 指明 了 边 
中 的 流量 必须 在 0 和 边 的 容量 之 间 ， 而 等 式 说 明 指 向 每 个 顶点 的 所 
有 边 中 的 流量 之 和 必须 和 从 该 顶点 指出 的 所 有 边 中 的 流量 之 和 相等 。 
任意 最 大 流量 问题 都 可 以 用 这 种 方式 归 约 为 一 个 线性 规划 问题 ， 而 
它 的 解 又 可 以 很 容易 地 归 约 为 最 大 流量 问题 的 解 。 图 6.0.28 给 出 了 
一 个 具体 的 示例 。 


命题 K 中 所 说 的 “许多 许多 其 他 问题 ”有 三 个 含义 。 第 一 ， 添 加 约 
束 条 件 和 扩展 线性 规划 模型 非常 简单 。 第 二 ， 问 题 的 归 约 是 有 传递 性 的 ， 
因此 能 够 归 约 为 最 短路 径 和 最 大 流量 问题 的 所 有 问题 也 能 够 归 约 为 线性 
规划 问题 。 第 三 ， 也 是 更 普遍 的 一 种 情况 ， 即 各 种 最 优化 问题 都 能 够 直 
接 构 造 为 线性 规划 问题 。 事 实 上 ， 线 性 规划 这 个 词 的 意思 就 是 “将 一 个 
最 优化 问题 构造 为 一 个 线性 规划 问题 ”。 这 种 用 法 出 现在 “programming” 
这 个 词 被 用 作 计 算 机 领域 的 “编程 ”之 意 之 前 。 和 非常 多 的 问题 都 可 以 
归 约 为 线性 规划 问题 同样 重要 的 是 ， 解 决 线性 规划 问题 的 高 效 算法 已 经 
发 明了 数 十 年 了 。 其 中 最 著名 的 是 G.Dantzig 在 20 世纪 40 年 代 发 明 的 
单纯 形 法 ( simplex algorithm ) 。 理 解 单纯 形 法 并 不 困难 (请 见 本 书 网 站 
上 对 它 的 简单 实现 ) 。 更 近 一 些 的 时 候 ，L.G.Khachian 在 1979 年 演示 了 
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椭 球 法 ( ellipsoid algorithm ) 并 推动 了 20 世纪 80 年 代 内 点 法 (interior point methods ) 的 发 展 。 对 
于 人 们 在 现代 应 用 中 遇 到 的 各 种 大 型 线性 规划 问题 ， 内 点 法 是 对 单纯 形 法 的 有 效 补充 。 现 在 ， 解 决 
线性 规划 问题 的 程序 都 已 经 十 分 健壮 、 久 经 考验 、 高 效 并 且 对 于 现代 公司 机 构 的 基本 运作 起 到 了 关 
键 的 作用 。 它 在 科学 领域 甚至 应 用 程序 中 的 运用 也 在 不 断 扩展 。 如 果 线 性 规划 模型 能 够 表示 你 的 问 
题 ， 那 么 离 问 题 的 解决 也 就 不 远 了 。 


最 大 流量 问题 最 大 流量 问题 的 解 
Ne 从 顶点 0 到 顶点 5 的 最 大 流量 配置 
8 2 hs 0 一 2 3.02.0 
二 | | 线性 规划 问题 的 构造 线性 规划 0—»1 2.0 2.0 
0 根据 约束 条 件 使 得 问题 的 解 1—4 1.01.0 
14 1.0 xastxas 最 大 化 1-a5301.0 
支 晤 -过 0<xo<2 Xx01=2 2 一 3 1.0 1.0 
全: 0 入 xzo< 和 3 X02=2 2 一 4 1.0 1.0 
Oe 0 入 xl 过 3 x13=1 3 一 5 2.0 2.0 
| 0 入 xl4 和 1 XI14= ] 4 一 5 3.0 2.0 
容量 0<x»<1 x23= 1 最 大 流量 值 : 4.0 
(| oa 
0<x3s<2 X35=2 
0<x4ase3 Xx45=2 


XO X13+ X14 
X02=X23t X24 
X13tX23=X35 
X14t X24 X45 





图 6.0.28 ”将 网 络 流 问题 归 约 为 线性 规划 问题 


非常 现实 地 说 ， 线 性 规划 是 各 种 问题 解决 模型 的 鼻祖 ， 因 为 非常 多 的 问题 都 能 向 它 归 约 。 很 自 
然 ， 这 一 点 也 使 我 们 不 禁 思考 是 否 存在 比 线性 规划 问题 更 强大 的 问题 解决 模型 。 还 有 哪些 问题 无 法 
归 约 为 线性 规划 问题 ”下 面 就 是 一 个 例子 。 

负载 均衡 。 给 定 一 组 任务 和 完成 它们 的 时 间 ， 应 该 如 何在 两 个 相同 的 处 理 器 上 分 配 任务 使 得 所 


有 任务 的 总 完成 时 间 最 短 ? 

我 们 能 够 找到 一 个 更 加 一 般 的 问题 解决 模型 并 高 效 解决 它 的 实例 吗 ? 这 样 的 思考 得 到 的 结果 是 907 
不 可 解 性 ， 它 也 将 是 本 书 的 最 后 一 个 话题 。 909 
6.0.6 不可解 性 


本 书 中 讨论 的 算法 一 般 都 是 用 来 解决 实际 问题 的 ， 因 此 它们 消耗 的 资源 都 是 有 限 的 。 大 多 数 算 
法 的 实用 性 是 显而易见 的 ， 而 且 对 于 许多 问题 ， 我 们 还 很 幸运 地 能 够 在 几 种 不 同 的 算法 之 间 进 行 选 
择 。 但 不 幸 的 是 ， 现 实生 活 中 还 有 许多 其 他 问题 并 没有 如 此 有 效 的 解决 方法 。 更 糟糕 的 是 ， 对 于 许 
多 类 问题 ， 人 们 甚至 不 知道 是 否 存在 有 效 解决 它们 的 方法 。 这 种 情况 让 程序 员 和 算法 的 设计 者 都 极 
度 诅 丧 ， 因 为 他 们 无 法 为 许多 实际 问题 找到 有 效 的 算法 。 对 于 理论 学 者 而 言 ， 诅 丧 来 自 于 他 们 无 法 
证 明 这 些 问 题 到 底 有 多 难 。 在 这 个 领域 ， 人 们 已 经 进行 了 大 量 的 研究 ， 并 发 展 出 了 一 种 方法 来 判断 
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一 个 新 问题 从 技术 的 角度 来 说 是 否 能 够 归于 “难以 解决 ”这 个 类 别 。 尽 管 这 方面 的 研究 大 多 数 都 超 
出 了 本 书 的 范畴 ， 但 是 理解 它们 的 核心 思想 并 不 困难 。 我 们 将 在 这 里 介绍 它们 ， 因 为 当面 对 一 个 新 
问题 时 ， 每 个 程序 员 都 应 该 了 解 不 存在 解决 它 的 高 效 算 法 的 可 能 性 。 
6.0.6.1 准备 工作 
20 世纪 最 漂亮 和 有 趣 的 智力 发 明之 一 ， 就 是 阿兰 图 灵 在 20 世纪 30 年 代 发 明 的 “图 灵机 ”。 
它 是 一 个 简单 而 又 非常 通用 的 计算 模型 ， 足 以 描述 任意 计算 机 程序 和 设备 。 一 台 图 灵机 就 是 一 台 能 
够 读 取 输入 、 变 换 状 态 和 打印 输出 的 有 限 状 态 机 。 图 灵机 是 理论 计算 机 科学 的 基础 。 它 来 自 于 下 面 
两 个 重要 的 思想 。 
口 普遍 性 。 图 灵机 可 以 模拟 所 有 物理 可 实现 的 计算 设备 。 这 被 称 为 详 奇 - 图 灵 论 题 。 这 是 一 个 
关于 自然 世界 的 论断 且 无 法 被 证 明 (但 可 以 被 证 伪 ) 。 该 论题 成 立 的 证 据 就 是 数学 家 和 计算 
机 科学 家 已 经 发 明 的 无 数 种 计算 模型 ， 而 它们 都 已 证 明和 图 灵机 等 价 。 
口 可 计算 性 。 图 灵机 (或 是 任意 其 他 计算 设备 , 根据 普遍 性 可 以 得 到 ) 无 法 解决 的 问题 是 存在 的 。 
这 在 数学 上 是 正确 的 。 停 机 问题 (halting problem ) (任意 程序 都 无 法 保证 能 够 判定 给 定 程 
序 是 否 会 结束 ) 就 是 这 类 问题 中 的 一 个 著名 的 例子 。 
在 这 里 ,我 们 感 兴趣 的 是 第 三 个 思想 ， 它 是 关于 计算 设备 效率 的 。 
口 扩展 的 撕 奇 -图 灵 论 题 。 在 任意 计算 设备 上 解决 某 个 问题 的 某 个 程序 所 需 的 运行 时 间 的 增长 
数量 级 都 是 在 图 灵机 上 (或 是 任意 其 他 计算 设备 上 ) 解决 该 问题 的 某 个 程序 的 多 项 式 倍数 。 
同样 ， 这 也 是 一 个 关于 自然 世界 的 论断 ， 因 为 所 有 已 知 的 计算 设备 都 能 够 通过 图 灵机 模拟 ， 只 
是 成 本 最 多 需要 增加 一 个 多 项 式 的 倍数 。 在 最 近 几 年 ， 量 子 计算 的 概念 使 得 一 些 研究 者 开始 怀疑 扩 
展 的 丘 奇 -图 灵 论 题 的 正确 性 。 大 多 数 人 都 认为 ， 从 实践 的 角度 来 说 ， 这 个 论题 还 能 支撑 一 段 时 间 ， 
但 许多 学 者 已 经 在 努力 证 明 它 是 错误 的 。 
6.0.6.2 ”指数 级 别 的 运行 时 间 
不 可 解 性 理论 的 目的 在 于 将 能 够 区 别 多 项 式 时间 内 解决 的 问题 和 在 最 坏 情 况 下 ( 可 能 ) 需要 指 
数 级 别 时 间 才 能 解决 的 问题 。 我 们 可 以 认为 指数 级 别 运 行 时 间 的 算法 在 输入 规模 为 N 时 所 需 的 时 间 
( 至少) 和 2" 成 正比 ， 将 底数 2 替换 为 任意 的 a>1 均 可 。 我 们 一 般 认 为 指数 时 间 的 算法 无 法 保证 
在 合理 的 时 间 内 解决 规模 超过 ( 例如 ) 100 的 问题 ， 因 为 无 论 计算 机 有 多 快 都 没 人 能 够 等 待 一 个 需 
要 2™” 步 的 算法 。 指 数 增长 级 别 使 得 科技 进步 忽略 不 计 : 一 台 超 级 计算 机 可 能 比 一 张 算盘 快 一 万 亿 倍 ， 
但 两 者 都 不 可 能 解决 需要 2” 步 才能 完成 的 问题 。 有 时 ，“ 和 简单” 问题 和 “困难 ”问题 之 间 只 有 一 
线 之 差 。 例 如 ，4.1 节 中 学 习 的 那个 能 够 解决 以 下 问题 的 算法 。 
最 短路 径 长 度 。 在 一 幅 图 中 从 一 个 给 定 的 顶点 s 到 另 一 个 给 定 的 顶点 上 之 间 的 最 短路 径 的 长 度 
是 多 少 ? 
但 并 没有 学 习 解 决 下 面 这 个 问题 的 算法 , 但 两 者 看 起 来 本 质 上 似乎 是 一 样 的 。 
最 长 路 径 长 度 。 在 一 幅 图 中 从 一 个 给 定 的 顶点 s 到 另 一 个 给 定 的 顶点 七 之 间 的 最 长 路 径 的 长 度 
是 多 少 ? 
问题 的 核心 在 于 ， 据 我 们 目前 所 知 ， 从 难度 上 来 说 这 些 几乎 都 是 最 困难 的 问题 。 广 度 优先 搜索 
能 够 在 线性 时 间 内 解决 第 一 个 问题 但 对 于 第 二 个 问题 所 有 已 知 算法 在 最 坏 情况 下 均 需 要 指数 级 别 
的 时 间 。 前 面 框 注 的 代码 用 一 个 深度 优先 搜索 的 变种 解决 了 这 个 问题 。 它 和 深度 优先 搜索 非常 类 似 ， 
但 它 检查 了 有 向 图 中 所 有 从 s 到 t 的 简单 路 径 才 找到 了 最 长 的 那 一 条 。 
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public class LongestPath 
{ 


private boolean[] marked; 
private int max; 


public LongestPath(Graph G, int s, int t) 
{ 

marked = new boolean[G.VO]; 

dfslQs's;' ty Os 
} 


private void dfs(Graph G, int v, int t, int 1) 
{ 

if (v == t && i > max) max = i; 

if (v == t) return; 

marked[v] = true; 

for (int w : G.adj(v)) 

if (!marked[w]) dfs(G, w, t, i+1); 
marked[v] = false; 


} 


public int maxLength() 
{ _ return max; } 


找 出 图 中 的 两 个 顶点 之 间 的 最 长 路 径 的 长 度 


6.0.6.3 ”搜索 问题 

本 书 中 已 经 介绍 过 的 “高 效 ” 算 法 能 够 解决 的 问题 与 还 需要 如 大 海 捞 针 一 般 在 各 种 可 能 性 中 寻 
找 解 法 的 问题 之 间 存 在 巨大 差异 ， 这 就 需要 能 够 用 一 种 简单 的 形式 模型 来 研究 这 两 类 问题 之 间 的 关 
系 。 第 一 步 就 是 要 说 明 我 们 所 研究 的 这 类 问题 。 


定义 。 如 果 一 个 问题 有 解 且 验 证 它 的 解 的 正确 性 所 需 的 时 间 不 会 超过 输入 规模 的 多 项 式 ， 则 称 
这 种 问题 为 搜索 问题 。 当 一 个 算法 给 出 了 一 个 解 或 是 已 证 明 解 不 存在 时 ， 就 称 它 解决 了 一 个 搜 
索 问 题 。 


我 们 将 在 后 面 讨论 不 可 解 性 问题 中 4 个 比较 有 趣 的 问题 。 这 些 问 题 被 为 “可 满足 性 ”问题 。 现 在 ， 
要 证 明 某 个 问题 是 一 个 搜索 问题 ， 只 需 说 明 你 能 够 快速 验证 某 个 完整 的 解 的 正确 性 即 可 。 解 决 一 个 搜 
索 问 题 就 好 像 “ 在 稻草 堆 里 寻找 一 根 针 ” 一 样 ， 你 唯一 的 优势 只 是 在 看 见 它 的 时 候 能 够 认得 出 来 。 例 
如 ， 对 于 后 面 列 出 的 每 个 可 满足 性 问题 都 给 定 了 一 组 变量 赋值 ， 你 都 能 很 容易 地 验证 每 个 等 式 或 不 等 
式 都 是 满足 的 ， 但 是 寻找 这 样 一 组 变量 赋值 就 完全 不 同 了 。 我 们 常用 NP 描述 所 有 搜索 问题 一 一 我 
们 会 在 6.0.6.5 节 说 明 这 个 名 字 的 由 来 。 


定义 。NP 是 所 有 搜索 问题 的 集合 。 


NP 准确 描述 了 所 有 科学 家 、 工 程 师 以 及 应 用 程序 员 渴 望 的 能 够 保证 在 合理 时 间 范 围 内 解决 的 
所 有 问题 的 集合 。 
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部 分 搜索 问题 。 
口 线性 等 式 可 满足 性 。 给 定 一 组 由 个 变量 表示 的 M 个 线性 等 式 ， 找 出 一 组 满足 所 有 等 式 的 
变量 赋值 ， 或 者 证 明 这 样 的 赋值 不 存在 。 
口 线性 不 等 式 可 满足 性 ( 线性 规划 问题 的 搜索 形式 ) 。 给 定 一 组 由 X 个 变量 表示 的 M 个 线性 
不 等 式 ， 找 出 一 组 满足 所 有 不 等 式 的 变量 赋值 ， 或 者 证 明 这 样 的 赋值 不 存在 。 
口 0 ~ 1 整数 线性 不 等 式 可 满足 性 (0 ~ 1 整数 线性 规划 问题 的 搜索 形式 ) 。 给 定 一 组 由 个 
整数 变量 表示 的 M 个 线性 不 等 式 ， 找 出 一 组 满足 所 有 不 等 式 的 变量 0 或 1 赋值 ， 或 者 证 明 
这 样 的 赋值 不 存在 。 
口 布尔 可 满足 性 。 给 定 一 组 由 X 个 布尔 变量 以 及 和 /或 运算 符 表示 的 M 个 等 式 ， 找 出 一 组 满 
足 所 有 等 式 的 变量 赋值 ， 或 者 证 明 这 样 的 赋值 不 存在 。 
6.0.6.4 ”其 他 类 型 的 问题 
对 于 构成 了 不 可 解 性 研究 的 基础 的 问题 集合 ， 搜 索 问 题 的 概念 是 多 种 描述 它 的 方法 之 一 。 其 他 
方法 包括 决定 性 问题 ( 解 是 否 存在 ? ) 以 及 最 优化 问题 ( 最 优 解 是 什么 ?7 ) 。 例 如 ，6.0.6.2 节 中 的 
最 长 路 径 长 度 问题 就 是 一 个 最 优化 问题 而 非 一 个 搜索 问题 。 ( 给 定 一 个 解 ， 无 法 验证 它 就 是 最 长 路 
径 的 长 度 。 ) 这 个 问题 的 搜索 版 本 是 找到 一 条 能 够 连接 所 有 顶点 的 简单 路 径 。 ( 该 问题 也 叫做 汉 密 
尔 顿 路 径 问 题 ) 。 这 个 问题 的 决定 性 版 本 是 询问 是 和 否 存在 一 条 能 够 连接 所 有 顶点 的 简单 路 径 。 套 汇 
问题 、 布 尔 可 满足 性 问题 和 汉密尔顿 路 径 问题 都 是 搜索 问题 ; 询问 这 些 问 题 是 否 有 解 是 决定 性 问题 ; 
而 最 短 或 最 长 路 径 问 题 、 最 大 流量 问题 和 线性 规划 问题 都 是 最 优化 问题 。 虽 然 它们 在 技术 上 并 不 等 
价 ， 但 搜索 问题 、 决 定性 问题 和 最 优化 问题 一 般 都 能 够 相互 归 约 ( 请 见 练习 6.58 和 练习 6.59 ) 且 我 
们 的 主要 结论 同时 适用 于 这 三 种 类 型 的 问题 。 
6.0.6.5 ”简单 的 搜索 问题 
NP 的 定义 并 没有 提 到 寻找 解 的 难度 ， 而 只 是 和 解 的 验证 有 关 。 构 成 不 可 解 性 研究 的 基础 的 第 
二 类 问题 的 集合 被 称 为 P， 它 和 寻找 解 的 难度 有 关 。 在 这 个 模型 下 ， 算 法 的 效率 是 将 输入 编码 所 需 
的 比特 数量 的 函数 。 


定义 。P 是 能 够 在 多 项 式 时 间 内 解决 的 所 有 搜索 问题 的 集合 。 


这 个 定义 暗示 着 多 项 式 时 间 是 一 个 最 坏 情况 下 的 时 间 界 限 。 对 于 在 集合 P 中 的 一 个 问题 ， 必 然 
存在 一 个 算法 能 够 保证 在 多 项 式 时 间 内 解决 它 。 注 意 ， 我 们 完全 没有 指定 这 是 一 个 怎样 的 多 项 式 。 
线性 、 线 性 对 数 、 平 方 、 立 方 级别 都 是 多 项 式 时间 ， 因 此 这 个 定义 显然 陡 括 了 目前 已 经 学 习 的 所 有 
标准 算法 。 运 行 一 个 算法 所 需 的 时 间 取 决 于 所 使 用 的 计算 机 ， 但 扩展 的 丘 奇 - 图 灵 论 题 让 这 一 点 变 
得 无 关 紧 要 一 一 它 说 明 任意 计算 设备 上 的 多 项 式 时 间 的 解 都 意味 着 任意 其 他 计算 设备 上 也 存在 多 项 
式 时 间 的 解 。 排 序 问 题 属 于 了 是 因为 (例如) 插入 排序 所 需 的 时 间 与 成 正比 (在 这 里 ， 线 性 对 
数 时 间 的 排序 算法 并 无 意义 ) ， 最 短路 径 问 题 、 线 性 等 式 可 满足 性 问题 以 及 其 他 许多 问题 也 是 这 样 。 
一 个 能 够 有 效 解决 某 个 问题 的 算法 足以 证 明 该 问题 属于 集合 P。 换 名 话说 ，P 准确 描述 了 所 有 科学 
家 、 工 程 师 以 及 应 用 程序 员 能 够 保证 在 合理 的 时 间 范 围 内 解决 的 所 有 问题 的 集合 ， 请 见 表 6.0.7 和 
表 6.0.8。 
6.0.6.6” 非 确定 性 

NP 中 的 N 表示 的 是 非 确定 性 ( nondeterminism ) 。 它 的 意思 是 ， 扩 展 计 算 机 能 力 的 一 种 ( 理论 
上 的 ) 方 法 是 赋予 它 不 确定 性 : 即 断 言 当 一 个 算法 面 对 若 干 个 选项 时 , 它 有 能 力 “ 猜 出 ” 正确 的 选择 。 
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在 我 们 的 讨论 中 ， 你 可 以 将 非 确定 性 的 计算 机 上 的 一 个 算法 看 作 是 在 “猜测 ”问题 的 解 ， 然 后 验证 
这 个 解 是 否 成 立 。 在 图 灵机 中 ， 非 确定 性 只 是 定义 为 一 个 给 定 状态 和 一 个 给 定 输 入 时 的 两 个 不 同 的 
后 继 状 态 ， 解 则 是 能 够 得 到 期 望 结果 的 所 有 路 径 。 非 确定 性 也 许 只 是 一 个 数学 上 的 幻想 ， 但 它 也 可 
以 是 一 种 很 有 用 的 思想 。 例 如 ,在 5.4 节 中 ,我们 将 非 确定 性 用 作 了 一 种 设计 算法 的 工具 一 一 正则 
表达 式 模式 匹配 算法 的 基础 就 是 有 效 模拟 一 个 非 确定 性 自动 状态 机 。 


表 6.0.7 集合 NP 中 的 问题 举例 


问 题 输 入 描 述 存在 多 项 式 时 间 算 法 实 例 解 
找到 一 条 能 够 访问 所 © 

yy AAA 天 = 站 芒 旧 

汉密尔顿 路 径 图 G 有 项 点 的 简单 路 径 ? a 0-2-1-3 
(2) (3) 

分 解 质 因数 整数 x 找到 x 的 最 大 因子 2 97605257271 8784561 

i x-y 硅 1 

0-1 线性 不 等 式 、 具 姑 名 的 找 出 满足 所 有 不 等 式 2xz<2 

z 宇 0 


P 中 的 所 有 请 见 表 6.0.7 


表 6.0.8 集合 P 中 的 问题 举例 
问 题 输 入 描 述 存在 多 项 式 时 间 算 法 实 例 


最 短 s- 路 径 ”图 G 找 出 从 s 到 1 的 ”广度 优先 搜索 (BFS) SS 0-3 
顶点 *、/ ”最 短路 径 TS 

排序 数组 a 将 a 按 升序 排列 ” 归并 排序 2.8 8.5 4.1 1.3 3021 

线性 等 式 可 满 ” N 个 变量 找 出 满足 所 有 等 ”高 斯 消 元 法 xty=1.5 x=0.5 

足 性 M 个 等 式 式 的 变量 赋值 2x-y=0 1 

线性 不 等 式 可 ”NN 个 变量 找 出 满足 所 有 不 椭 球 法 x-y 1.5 x=2.0 

满足 性 M 个 不 等 式 。 等 式 的 变量 赋值 2x-z 0 ys 
xty 宇 3.5 z=4.0 
z 宇 4.0 

6.0.6.7 主要 问题 


非 确定 性 十 分 强大 ， 严 肃 认 真 地 考虑 它 似乎 有 点 荒唐 。 为 什么 要 花心 思 用 一 种 想象 中 的 工具 将 
困难 的 问题 变 得 看 起 来 简单 呢 ? 答案 是 ， 虽 然 非 确定 性 看 起 来 十 分 强大 ， 但 没 人 能 够 证 明 它 能 够 帮 
助 我 们 解决 任何 问题 ! 换 句 话说 , 还 没有 人 能 够 找到 任何 一 个 问题 并 证 明 它 属于 NP 而 不 属于 P ( 其 
至 证 明 存 在 这 样 一 个 问题 ) 。 这 就 留 下 了 一 个 有 待 解决 的 问题 : 


P=NP 成 立 吗 ? 
这 个 问题 是 由 K.G6del 在 1950 年 写 给 工 von Neumann 的 一 封 著名 的 信 中 第 一 次 提出 的 ， 并 且 完 全 
难 倒 了 所 有 数学 家 和 计算 机 科学 家 。 陈 述 这 个 问题 的 其 他 方式 说 明了 一 些 它 的 基本 性 质 。 
口 是 否 存在 任何 难以 解决 的 搜索 问题 ? 
口 如 果 能 构造 一 种 非 确 定性 的 计算 设备 ， 能 够 更 快 地 解决 某 些 搜索 问题 吗 ? 
无 法 解答 这 些 问题 令 人 们 极度 眉 恼 , 因为 许多 重要 的 实际 问题 都 属于 NP 但 却 不 一 定 属于 P。( 已 
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知 的 最 快 确定 性 算法 需要 指数 级 别 的 时 间 。 ) 如 果 能 够 证 明 它 不 属于 P， 就 可 以 放弃 寻找 高 效率 的 
算法 。 既 然 无 法 证 明 , 那么 就 存在 发 现 某 种 高 效 算 法 的 可 能 性 。 事实 上 , 就 我 们 目前 的 知识 水 平 而 言 ， 
NP 中 的 每 个 问题 都 可 能 存在 某 种 高 效 的 算法 , 这 意味 着 可 能 还 有 许多 高 效 的 算法 没有 被 人 们 发 现 。 
但 实际 上 没 人 相信 P=NP， 而 且 很 大 一 部 分 人 都 在 努力 证 明 该 等 式 不 成 立 。 它 仍然 是 计算 机 科学 领 


域 有 待 证 明 的 最 重要 的 研究 课题 。 
6.0.6.8 ”多项式 时 间 问 题 的 相互 归 约 


6.0.5 节 通 过 说 明 用 以 下 三 个 步骤 可 以 解决 问题 A 的 任意 实例 , 证 明了 问题 A 是 可 以 归 约 为 问 


题 B 的 : 
口 将 A 的 实例 归 约 为 B 的 实例 ; 
口 解决 B 的 实例 ; 


口 将 B 的 实例 的 解 归 约 为 A 的 实例 的 解 。 


布尔 可 满足 性 问题 


(x1 or x or x3) and 
(x1 orxy or x3) and 
(x1 orx2 orx3)and 
(Xx1Or x3 Or Xs) 


0-1 整 数 线性 不 等 式 可 满足 性 问题 的 构造 


当 且 仅 当 第 一 个 
子 句 是 可 满足 时 ~、。 
ci 的 值 为 1 人 

CI 二 X3 


CI 过 1 -x 


CS(1-x1)+x2+ x 


| 
1-x2 
OX3 
QEXIt (1-x2) + x 


G1 -x 

G1-x 

G 二 1-X3 
wel) ll =) 


C4 之 1 -Xl 

041- x2 

C4 和 xX3 
ca<(1-x1)+ (1-x2)+x3 


Lo 当 且 仅 当 所 有 c 
全 一 变量 的 值 均 为 1 
人 时 s 的 值 为 1 
SET 
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图 6.0.29 将 布尔 可 满足 性 问题 归 约 为 0-1 整 
数 线性 不 等 式 可 满足 性 问题 的 示例 


只 要 能 够 有 效 完成 归 约 ( 并 解决 问题 B) ,我 
们 就 能 有 效 的 解决 问题 A。 在 这 里 ， 为 了 效率 我 们 
采用 了 能 够 想象 的 最 弱 的 定义 : 为 了 解决 问题 A 最 
多 需要 解决 多 项 式 个 问题 B 的 实例 ， 且 问题 归 约 最 
多 只 需 多 项 式 时 间 。 在 这 种 情况 下 ， 我 们 称 A 能 够 
在 多 项 式 时 间 内 归 约 为 B。 在 前 文中 ， 我 们 使 用 问 
题 的 归 约 介绍 了 各 种 问题 解决 模型 ， 使 得 高 效 算法 
所 能 解决 的 问题 范围 大 大 拓展 了 。 现 在 ， 我 们 要 从 
另 一 个 角度 使 用 问题 的 归 约 ， 即 用 它 来 证 明 一 个 问 
题 是 难以 解决 的 。 如 果 一 个 问题 A 已 知 是 难以 解决 
的 ， 且 A 在 多 项 式 时 间 内 能 够 归 约 为 问题 B， 那 么 
问题 B 必然 也 是 难以 解决 的 。 否 则 ， 问 题 B 的 一 
个 多 项 式 时 间 的 解 必然 也 能 归 约 为 问题 A 的 一 个 多 
项 式 时 间 内 的 解 。 


命题 L。 布 尔 可 满足 性 问题 能 够 在 多 项 式 时 间 
内 归 约 为 0-1 整数 线性 不 等 式 可 满足 性 问题 。 


证 明 。 对 于 给 定 的 一 个 布尔 可 满足 性 问题 的 实例 ， 
定义 一 组 不 等 式 ， 其 中 每 个 布尔 变量 都 对 应 着 一 
个 0-1 变 量 ， 每 个 布尔 子 句 也 对 应 着 一 个 0-1 变 
量 , 如 图 6.0.29 所 示 。 若 布尔 变量 的 值 为 真 ( true ) 
则 对 应 的 整数 变量 的 值 为 1， 值 为 假 (false ) 
时 对 应 的 整数 变量 的 值 为 0。 这 样 ， 我 们 就 能 够 
将 0-1 整数 线性 不 等 式 可 满足 性 问题 的 解 归 约 为 
布尔 可 满足 性 问题 的 解 。 


推论 。 如 果 可 满足 性 问题 是 难以 解决 的 ， 那 么 整数 线性 规划 问题 也 是 难以 解决 的 。 
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即使 我 们 并 没有 精确 定义 难以 解决 ， 关 于 解决 这 两 种 问题 的 难度 关系 的 陈述 仍然 是 有 意义 的 。 
在 这 里 ，“ 难 以 解决 ”的 意思 是 “不 包含 在 集合 P 中 ”。 一般 来 说 ,我 们 用 不 可 解 来 表示 不 包含 在 
集合 P 中 的 问题 。 以 R.Karp 在 1972 年 作出 的 开创 性 的 工作 为 起 点 ,一 些 研究 者 已 经 通过 这 种 归 约 
的 方式 证 明了 成 百 上 千 种 各 个 应 用 领域 的 问题 都 是 相关 的 。 此 外 ， 这 种 关系 的 内 涵 远 比 两 个 单独 的 
问题 之 间 的 联系 更 丰富 ， 下 面 我 们 将 说 明 这 个 概念 。 
6.0.6.9 NP- 完全 性 

许多 问题 都 属于 NP 但 可 能 并 不 属于 P。 也 就 是 说 , 我 们 可 以 轻易 地 验证 任意 给 定 的 解 是 否 有 效 ， 
但 即使 投入 了 许多 努力 ， 也 未 能 开发 出 一 个 有 效 的 算法 来 寻找 问题 的 解 。 令 人 惊讶 的 是 ， 所 有 这 些 [916 
问题 都 有 一 个 额外 的 性 质 ， 令 人 信服 地 说 明了 PANP: 917 


定义 。 若 NP 中 的 所 有 问题 都 能 在 多 项 式 时 间 内 归 约 为 搜索 问题 A, 那么 则 称 问题 A 是 NP- 完 全 的 。 


这 个 定义 使 得 我 们 可 以 将 “难以 解决 ”的 定义 升级 为 “除非 P=NP 否则 无 解 ”。 如 果 任 意 NP- 
完全 问题 能 够 通过 一 台 有 限 自动 机 在 多 项 式 时 间 内 解决 ， 那 么 NP 中 的 所 有 问题 都 将 得 到 解决 ( 即 
=NP ) 。 也 就 是 说 ， 所 有 研究 者 对 于 寻找 这 些 问题 的 高 效 算法 的 失败 从 整体 上 来 说 是 证 明 P=NP 的 
失败 。NP- 完全 问题 的 意思 是 ， 我 们 不 期 望 能 够 找到 多 项 式 时 间 的 算法 。 大 多 数 实际 的 搜索 问题 都 
已 知 是 了 或 NP- 完全 问题 。 
6.0.6.10 ”Cook-Levin 定理 

通过 归 约 ， 一 个 问题 的 NP- 完全 性 也 意味 着 另 一 个 问题 的 NP- 完全 性 。 但 归 约 在 一 种 情况 下 是 
不 可 用 的 : 如 何 证 明 第 一 个 问题 是 NP- 完全 的 ? S.Cook 和 L.Levin 在 20 世纪 70 年 代 早 期 分 别 独 立 
地 完成 了 这 项 工作 。 


命题 M〈Cook-Levin 定理 ) 。 布 尔 可 满足 性 问题 是 NP- 完全 的 。 


极 大 简化 证 明 。 目 标 是 证 明 如 果 布 尔 可 满足 性 问题 存在 多 项 式 时 间 的 算法 ， 那 么 NP 集合 中 的 
所 有 问题 都 能 在 多 项 式 时 间 内 解决 。 非 确定 型 图 灵机 是 可 以 解决 NP 中 的 任意 问题 的 ， 因 此 证 
明 的 第 一 步 是 用 与 布尔 可 满足 性 问题 中 一 样 的 逻辑 表达 式 描述 非 确 定型 图 灵机 的 所 有 特性 。 这 
可 以 将 NP 中 的 每 个 问题 (它们 都 可 以 表示 为 非 确定 型 图 灵机 上 的 一 个 程序 ) 和 可 满足 性 问题 
的 某 个 实例 (该 程序 的 逻辑 表达 式 形式 ) 联系 起 来 。 这 样 ， 可 满足 性 问题 的 解 本 质 上 等 价 于 模 
拟 图 灵机 在 给 定 的 输入 下 运行 给 定 的 程序 ， 因 此 它 将 产生 给 定 问题 的 某 个 实例 的 解 。 这 份 证 明 
的 其 他 细节 已 经 远 远 超 出 了 本 书 的 范畴 。 幸 运 的 是 ， 我 们 只 需要 证 明 这 一 个 命题 即 可 : 使 用 归 
约 来 证 明 NP- 完全 性 要 简单 的 多 。 


Cook-Levin 定理 ， 再 加 围绕 各 种 NP- 完全 问题 所 进行 的 成 千 上 万 次 多 项 式 时 间 内 的 归 约 ， 使 我 
们 得 到 了 两 种 可 能 性 : 或 者 P=NP， 即 不 存在 任何 不 可 解 的 搜索 问题 (所 有 搜索 问题 都 能 够 在 多 项 
式 时 间 内 得 到 解决 ) ; 或 者 P 关 NP， 即 存在 不 可 解 的 搜索 问题 ( 某 些 搜索 问题 无 法 在 多 项 式 时 间 
内 得 到 解决 ) ， 请 见 图 6.0.30。NP- 完全 问题 在 实际 应 用 中 经 常 出 现 ， 因 此 人 们 找 出 解决 它们 的 优 
秀 算法 的 意愿 非常 强烈 。 所 有 这 些 问题 目前 都 还 未 找到 有 效 的 算法 显然 强烈 说 明了 了 P 关 NP， 大 多 
数 研 究 者 也 相信 这 一 点 。 但 从 另 一 方面 来 说 ， 也 没 人 能 够 证 明 这 些 问 题 中 的 任意 一 个 不 属于 P， 这 
也 同样 是 反方 向 的 一 个 有 力 证 据 。 无 论 P=NP 是 否 成 立 ， 目 前 的 实际 状态 是 所 有 NP- 完全 问题 的 已 
知 最 佳 算 法 在 最 坏 情 况 下 都 需要 指数 级 别 的 时 间 。 
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6.0.6.11 ”问题 的 分 类 P 
要 证 明 一 个 搜索 问题 存在 于 集合 P 中 ， 我 们 需要 展示 一 个 解决 它 

的 多 项 式 时 间 算 法 ， 这 或 许可 以 通过 将 它 归 约 为 一 个 已 知 P 了 类 问题 。 

要 证 明 NP 中 的 一 个 问题 是 NP- 完全 的 ， 我们 需要 证 明 某 个 已 知 的 

NP- 完全 问题 能 够 在 多 项 式 时 间 内 归 约 为 它 : 也 就 是 说 ， 如 果 一 个 新 

问题 的 多 项 式 时 间 的 算法 能 够 用 于 解决 NP- 完全 问题 ， 那 么 它 也 就 能 P = NP 

解决 NP 中 的 所 有 问题 。 我 们 已 经 用 这 种 方法 证 明了 成 千 上 万 的 问题 NP 


都 是 NP- 完全 问题 ， 就 像 在 命题 中 对 整数 线性 规划 问题 进行 的 转 (°) 
换 那样 。 后 面 列 出 了 一 些 有 代表 性 的 问题 ， 它 包含 了 Karp 提出 的 若 


干 问题 ,但 这 只 是 已 知 的 NP- 完全 问题 中 极 小 的 一 部 分 。 将 新 问题 归 
和 容易 解决 (属于 集合 P ) 或 者 难以 解决 (NP- 完全 ) 的 类 别 可 能 会 


出 现 以 下 几 种 情况 。 图 6.0.30 “问题 集 的 两 种 
口 显而易见 。 例 如 ， 著 名 的 高 斯 消 元 法 就 能 够 证 明 线性 等 式 可 可 能 情况 
满足 性 问题 属于 集合 P。 


口 需要 一 些 技巧 但 并 不 困难 。 例 如 ， 给 出 一 份 类 似 于 命题 的 证 明 需 要 一 些 经 验 和 实践 ， 但 
理解 并 不 困难 。 

口 非常 有 挑战 性 。 例 如 ， 线 性 规划 问题 曾经 长 期 分 类 不 明 ， 但 Khachian 的 椭 球 法 证 明了 线性 规 
划 问 题 属于 集合 P。 

口 有 待 解决 。 例 如 ， 图 的 同 构 问 题 ( 给 定 两 幅 图 ， 给 出 一 种 能 够 使 得 两 幅 图 相同 的 顶点 重 命名 
方案 ) 和 分 解 质 因数 问题 ( 给 定 一 个 整数 ， 找 出 它 的 最 大 因数 ) 仍然 是 无 解 的 。 

目前 这 仍然 是 一 块 内 容 丰 富 、 研 究 活跃 的 领域 ， 每 年 都 会 产生 数 千 篇 论文 。 从 后 面 项 目 列 出 的 


最 后 几 个 条 目 可 以 看 出 ， 它 涉及 了 科学 界 的 各 个 领域 。 我 们 在 NP 的 定义 中 包含 了 科学 家 、 工 程 师 
和 应 用 程序 员 所 渴望 解决 的 所 有 问题 一 一 这 些 问 题 显 然 需要 分 类 ! 


一 些 著名 的 NP- 完全 问题 。 

口 布尔 可 满足 性 。 给 定 一 组 由 入 个 布尔 变量 表示 的 M 个 等 式 ， 找 出 一 组 满足 所 有 等 式 的 变量 
赋值 ， 或 者 证 明 这 样 的 赋值 不 存在 。 

口 整数 线性 规划 。 给 定 一 组 由 X 个 整数 变量 表示 的 M 个 线性 不 等 式 ， 找 出 一 组 满足 所 有 不 等 
式 的 变量 赋值 ， 或 者 证 明 这 样 的 赋值 不 存在 。 

口 负载 均衡 。 给 定 一 组 任务 和 完成 它们 的 时 间 以 及 一 个 时 间 上 限 7， 应 该 如 何在 两 个 相同 的 处 
理 器 上 分 配 任务 以 在 时 间 了 之 内 完成 所 有 任务 ? 

口 顶点 覆盖 。 给 定 一 幅 图 和 一 个 整数 C， 找 出 一 个 含有 C 个 顶点 的 集合 ， 保 证 图 中 的 每 条 边 
都 至 少 依附 于 集合 中 的 一 个 顶点 。 

口 汉密尔顿 路 径 。 给 定 一 幅 图 ， 找 出 一 条 正好 只 经 过 每 个 顶点 一 次 的 简单 路 径 ， 或 者 证 明 这 种 
路 径 不 存在 。 

口 蛋白 质 折 登 。 给 定 能 量 级 别 M， 找 出 一 种 蛋白 质 的 某 种 三 维 折 释 结构 ， 其 含有 的 潜在 能 量 
小 于 M。 

口 伊 辛 模型 。 给 定 一 个 三 维 晶 格 伊 辛 模型 和 一 个 能 量 阅 值 ， 是 否 存 在 一 个 自由 能 小 于 EE 的 
子 图 ? 

口 给 定 收 益 的 风险 投资 组 合 。 给 定 一 组 风险 投资 渠道 与 一 个 总 成 本 以 及 一 个 给 定 收益 。 每 项 投 
资 都 有 一 定 的 风险 值 ， 风 险 的 总 阅 值 为 M。 找 到 一 种 分 配 投 资 的 方法 使 得 总 风险 小 于 M。 
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6.0.6.12 ”处 理 NP- 完全 性 

在 实践 中 ， 我 们 必须 为 这 些 各 种 各 样 的 问题 找到 某 种 解决 办 法 ， 因 此 人 们 对 解决 这 些 问 题 非常 
感 兴趣 。 我 们 不 可 能 在 这 一 小 段 文字 中 说 明 这 个 庞大 的 研究 领域 ,但 我 们 可 以 简要 描述 一 下 人 们 已 
经 尝试 过 的 各 种 手段 。 一 种 方法 是 ,修改 问题 并 寻找 一 种 “近似 ”算法 来 给 出 接近 但 并 非 最 佳 的 解 。 
例如 ， 欧 几 里 德 旅行 销 信 员 问题 (traveling salesman problem ) ,我 们 很 容易 找到 一 个 长 度 小 于 最 优 
路 线 的 两 倍 的 解 。 但 不 幸 的 是 ， 在 寻找 更 好 的 近似 时 ， 这 种 方法 并 不 足以 绕 开 NP- 完全 性 。 第 二 种 
方法 是 ， 给 出 一 种 能 够 有 效 解 决 实际 应 用 中 所 出 现 的 问题 的 实例 算法 ， 但 对 于 最 坏 情况 下 的 输入 ， 
这 种 算法 仍然 是 无 法 找到 问题 的 解 。 这 种 方法 最 著名 的 例子 是 解决 整数 线性 规划 问题 的 程序 ， 它 们 
是 数 十 年 来 解决 无 数 工业 应 用 中 的 大 量 最 优化 问题 的 主力 军 。 尽管 它们 有 可 能 需要 指数 级 别 的 时 间 ， 
但 实际 应 用 中 的 输入 数据 也 显然 不 是 最 坏 情况 下 的 输入 。 第 三 种 方法 是 ， 使 用 一 种 叫做 “回溯 法 ” 
的 技术 来 避免 检查 所 有 可 能 的 解 ， 以 期 找到 尽 可 能 “高 效 ” 的 指数 级 别 算法 。 最 后 ， 计 算 机 科学 的 
理论 并 没有 提 到 多 项 式 时 间 和 指数 时 间 之 间 的 一 个 相当 大 的 空 档 。 存 在 运行 时 间 与 NY 以 及 2 成 
正比 的 算法 吗 ? 

NP- 完全 性 触及 了 本 书 中 我 们 所 研究 过 的 所 有 应 用 领域 : NP- 完全 问题 会 出 现在 初级 的 编程 问 
题 、 排 序 和 查找 、 图 处 理 、 字 符 串 处 理 、 科 学 计算 、 系 统 编程 、 运 筹 学 以 及 所 有 能 够 想到 的 需要 计 
算 的 地 方 。NP- 完全 性 理论 对 实际 生产 最 重要 的 贡献 在 于 它 给 出 了 一 种 方法 来 鉴别 来 自 于 这 些 广泛 
领域 的 一 个 新 间 题 是 “容易 ”还 是 “困难 ” 呢 。 如 果 有 人 找到 了 一 种 解决 新 问题 的 有 效 方法 ， 那 么 
它 显 然 就 没什么 难度 了 。 如 果 找 不 到 ， 那 么 要 是 能 够 证 明 该 问题 是 NP- 完全 的 ， 这 就 说 明 找到 一 个 
高 效 算法 基本 上 是 不 可 能 的 。 (因此 或 许 应 该 尝试 另 一 种 思路 。 ) 本 书 中 已 经 研究 过 的 所 有 高 效 算 
法 说 明 我 们 已 经 学 习 了 自 欧 拉 以 来 的 多 种 高 效 的 计算 方法 ， 但 NP- 完全 性 理论 也 说 明 事 实 上 人 们 还 
有 很 长 的 路 要 走 。 


Ke 
iD 


图 练习 磁 撞 模拟 


6.1 根据 正文 完成 predictCollisions() 和 Particle 的 实现 。 决 定 一 对 刚性 球体 进行 弹性 碰撞 后 的 
运动 状态 需要 3 个 公式 : (a) 动量 守恒 ，(b) 动能 守恒 ，(c) 碰撞 时 ， 相 互 作用 力 和 碰撞 点 的 切面 垂直 
(假设 没有 摩擦 力 和 自 旋 ) 。 更 多 细节 请 见 本 书 的 网 站 。 

6.2 ”开发 一 个 版 本 的 Co11isionSystem、Particle 和 Event 类 ， 使 之 能 够 处 理 多 个 粒子 的 相互 碰撞 。 
在 模拟 台球 比赛 的 开 球 时 这 是 非常 重要 的 。 (这 道 习 题 很 难 ! ) 

6.3 开发 一 个 三 维 版 本 的 Co11isionSystem、Particle 和 Event 类 。 

6.4 ”尝试 将 大 片区 域 分 割 为 长 方形 的 小 格 ， 并 在 一 种 新 的 事件 类 型 中 仅 预 测 某 个 粒子 在 某 一 时 刻 和 相 邻 
的 9 个 方 格 中 的 所 有 粒子 的 碰撞 。 用 这 种 方法 改进 Co11isionSystem 的 simulate() 方法 的 性 能 。 
这 种 方法 减少 了 需要 计算 的 预测 碰撞 数量 ， 代 价 是 需要 监视 所 有 粒子 在 方 格 之 间 的 运动 。 

6.5 在 CollisionSystem 中 引入 灶 的 概念 并 用 它 验 证 (信息 论 中 的 ) 经 典 结论 。 

6.6 布朗 运动 。1827 年 ， 植 物 学 家 罗伯特 布朗 在 用 显微镜 观察 到 温和 水 中 的 野生 花粉 颗粒 时 ， 发 现 它 
们 在 进行 无 规则 的 运动 。 这 种 运动 后 来 被 称 为 布朗 运动 。 人 们 讨论 了 这 种 现象 ， 但 没 人 能 够 给 出 令 
人 信服 的 解释 ， 直 到 爱 因 斯 坦 在 1905 年 在 数学 上 说 明了 这 个 问题 。 爱 因 斯 坦 的 解释 是 : 花粉 颗粒 
的 运动 是 由 无 数 微小 的 分 子 和 花粉 粒子 相 撞 造成 的 。 请 用 模拟 来 说 明 这 个 现象 。 

6.7 温度 。 为 Particle 类 添加 一 个 temperature() 方法 ， 返 回 粒子 的 质量 和 速度 的 平方 除 以 dk 的 商 
之 积 ， 其 中 空间 维 数 d=2，Bo1tzmann 常数 如 =1.3806503 x 10”。 系 统 的 温度 是 所 有 粒子 的 这 些 量 
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23 


6.8 


6.9 


6.10 


6.11 


6.12 


6.13 


的 平均 值 。 为 Co11isionSystem 添加 一 个 temperature() 方法 , 周期 性 采集 温度 数据 并 绘 成 图 表 ， 
检查 温度 是 否 恒定 。 
Maxwell-Boltzmann。 刚 性 球体 模型 中 的 所 有 粒子 的 速度 分 布 遵循 Maxwell-Boltzmann 分 布 ( 假设 系 
统 已 经 被 加 热 且 粒子 的 质量 足以 忽略 量子 力学 效应 ) ， 在 二 维系 统 中 又 被 称 为 Rayleigh 分 布 。 分 布 
的 形状 取决 于 温度 。 编 写 一 个 方法 计算 粒子 速度 的 直方 图 并 在 各 种 温度 下 测试 它 。 
任意 形状 。 分 子 的 移动 速度 非常 快 ( 超过 喷气 式 飞机 ) 但 扩散 却 很 慢 ， 因 为 它们 会 互相 碰撞 并 因此 
改变 方向 。 扩 展 模型 ， 将 两 个 容器 用 一 根 管道 相连 ， 容 器 中 分 别 含 有 两 种 不 同类 型 的 粒子 。 模 拟 粒 
子 的 运动 并 以 时 间 的 函数 测量 每 个 容 咒 中 每 种 类 型 的 粒子 的 比例 。 
回 退 。 在 某 次 模拟 结束 后 ， 将 所 有 速度 变 为 相反 的 方向 并 继续 模拟 系统 中 的 运动 ， 它 应 该 能 够 问 
到 最 初 的 状态 ! 测量 系统 的 最 终 状 态 和 初始 状态 的 差异 来 估计 四 舍 五 入 造成 的 误差 。 
压强 。 为 Particle 类 添加 一 个 pressure() 方法 来 测量 大 量 粒 子 和 载体 碰撞 造成 的 压强 。 系 统 的 
压强 为 所 有 粒子 的 冲击 力 之 和 。 为 Co11isionSystem 类 添加 一 个 pressure() 方法 并 编写 一 个 用 
例 验 证 等 式 pv=nRT。 
基于 索引 优先 队列 的 实现 。 开 发 一 个 版 本 的 Co11isionsystem， 使 用 索引 优先 队列 来 保证 优先 队 
列 的 长 度 最 多 与 粒子 数量 呈 线 性 关系 〈 而 非 平方 级 别 或 者 更 糟 ) 。 
优先 队列 的 性 能 。 使 用 优先 队列 ， 在 多 种 温度 下 测试 Pressure 类 来 定位 计算 的 瓶颈 。 如 果 可 以 ， 
尝试 切换 到 另 一 种 不 同 的 优先 队列 实现 ， 在 高 温 下 获取 更 好 的 性 能 。 


图 练习 : B- 树 
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6.15 
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假设 在 一 棵 三 层 树 中 ， 总 共 可 以 在 内 存 中 保存 a 条 链接 。 每 个 页 中 可 以 保存 b ~ 24b 条 指向 内 部 结 
点 的 链接 和 c ~ 2c 条 指向 外 部 结 点 中 的 链接 。 在 这 样 一 棵 树 中 最 多 可 以 含有 多少 个 项 (作为 a、4b、 
c 的 函数 ) ? 

开发 一 个 Page 的 实现 ,将 B- 树 的 结 点 表示 为 一 个 BinarySearchST 类 的 对 象 。 

扩展 BTreeSET 来 实现 能 够 关联 键 和 值 的 BTreeST 类 ， 并 完整 支持 有 序 符号 表 API， 包 括 min()、 
max()、floor()、ceiling()、deleteMin()、deleteMax()、select()、rank0 方法 以 及 接受 
两 个 参数 的 size() 和 get() 方法 。 

编写 一 个 程序 ， 使 用 StdDraw 将 B- 树 的 生长 过 程 可 视 化 ， 如 同 正文 描述 的 方式 一 样 。 

在 一 个 有 缓存 的 典型 系统 中 ,估计 对 B- 树 的 5 次 随机 查找 中 ， 每 次 查找 的 平均 探查 次 数 。 缓 存 可 
以 将 7 个 最 近 访 问 的 页 保存 在 内 存 中 ( 因此 无 需 探查 ) 。 假 设 8 远大 于 7。 

网 络 搜索 。 开 发 一 个 Page 类 的 实现 ， 为 了 索引 网 页 ， 用 B- 树 的 结 点 表示 网 页 中 的 文本 。 用 一 个 
文件 表示 搜索 的 关键 字 。 从 标准 输入 接受 被 索引 的 网 页 。 为 了 控制 规模 ， 接 受命 令 行 参数 m 并 
将 内 部 结 点 的 数量 限制 在 10” 内 。 (在 使 用 较 大 的 m 前 请 联系 系统 管理 员 。 ) 使 用 一 个 m 位 的 
数字 来 表示 内 部 结 点 。 例 如 ， 当 m 为 4 时 ， 结 点 名 可 以 是 BTreeNode0000、BTreeNode0001、 
BTreeNode0002 等 。 在 页 中 保存 成 对 的 字符 串 。 向 API 中 添加 一 个 close() 操作 来 排序 并 写 人 数 
据 。 为 了 测试 实现 ， 尝 试 在 你 的 学 校 的 网 站 上 搜索 你 和 朋友 的 名 字 。 

B*- 村。 在 B- 树 中 启发 式 地 分 裂 兄 弟 结 点 : 当 某 个 结 点 含有 M 个 条 目 并 需要 分 裂 时 ， 将 它 和 它 
的 一 个 兄弟 结 点 合并 。 如 果 该 兄弟 结 点 只 含有 个 条 目 且 k<M-1， 可 以 重新 分 配 并 使 得 两 者 都 只 
含有 CM+k) /2 个 条 目 。 否则 , 我 们 创建 一 个 新 结 点 并 使 3 个 结 点 中 都 只 含有 2M/3 个 条 目 。 同时 ， 
我 们 允许 根 结 点 保存 4M13 个 条 目 ， 并 在 它 饱 和 时 将 它 分 裂 并 创建 一 个 只 含有 两 个 条 目的 新 根 结 
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点 。 找 出 在 含 及 个 元 素 的 MM 阶 B#- 树 中 每 次 查找 或 插入 所 需 的 探查 数 的 上 下 界限 。 将 你 的 结 

果 和 B- 树 的 相应 上 下 界 〈 请 见 命题 B ) 进行 比较 。 实 现 B* 树 中 的 插入 操作 。 924 
编写 一 段 程序 ， 计算 在 N 次 随机 插入 所 构造 的 一 棵 M 阶 B- 树 中 外 部 页 的 平均 数量 。 用 合理 的 M 
入 值 运行 你 的 程序 。 

如 果 你 的 系统 支持 虚拟 内 存 ， 设 计 并 用 实验 比较 B- 树 和 二 分 查找 在 一 张 庞 大 的 符号 表 中 的 随机 查 

找 性 能 。 

对 于 你 为 练习 6.15 给 出 的 保存 在 内 存 中 的 Page 的 实现 ， 用 实验 确定 能 够 使 B- 树 在 一 张 庞大 的 符 

号 表 中 的 使 随机 查找 操作 速度 最 快 的 M 值 。 特 别 注意 M 为 100 的 倍数 的 情况 。 

运行 实验 比较 保存 在 内 存 中 的 B- 树 (使 用 练习 6.23 中 确定 的 M 值 ) 、 线 性 探测 散 列 法 和 红 黑 树 

在 一 张 庞大 的 符号 表 中 的 随机 查找 用 时 。 925 


图 练习 : 后 级 数组 


6.25 


6.26 


6.27 


6.28 


“6.29 
6.30 


按照 图 6.0.15 的 样式 给 出 由 以 下 字符 串 的 后 级 、 后 级 的 排序 、index() 和 1cpQ 方法 的 返回 值 组 
成 的 表格 。 

a. abacadaba 

b.mississippi 

c. abcdefghij 

d. aaaaaaaaaa 

下 面 这 段 代 码 用 于 计算 字符 串 的 所 有 后 级 ， 找 出 其 中 的 问题 。 

suffix ss ms | 

for (int 1 = s.length(O) - 1; i1 >= 0; i--) 


suffix = s.charAt(i) + suffix; 
suffixes[i] = suffix; 


需要 平方 级 别 的 时 间 和 空间 。 
ethene te 这 个 操作 会 涉及 文本 中 的 所 有 字符 。 对 于 0 到 N-1 之 间 的 i， 
长 度 为 NN 的 文本 的 第 i 次 回环 变 位 得 到 的 是 它 的 后 N-i 个 字符 和 前 i 个 字符 相连 所 得 的 字符 串 。 
下 面 这 段 代码 用 于 计算 文本 的 所 有 回环 变 位 ， 找 出 其 中 的 问题 。 
int N = s.lengthO); 
for (Cint 1 = 0; i < N; i++) 
rotation[i] = s.substring(i,. N) + s.substring(0, i); 
答 : 它 需要 平方 级 别 的 时 间 和 空间 。 
设计 一 个 线性 时 间 的 算法 来 计算 给 定 文本 字符 串 的 所 有 回环 变 位 。 


String t= 5S. 5 
int N = s.lengthO); 
for int 1 =.09 1 Ni 14F) 

rotation[i] = r.substring(i, i + N); 926 
按照 1.4 节 中 的 假设 ， 给 出 一 个 长 度 为 N 的 字符 串 SuffixArray 对 象 对 内 存 的 使 用 情况 。 
最 长 公共 子 字符 囊 。 编 写 一 个 SuffixArray 的 用 例 LCS， 接 受 两 个 文件 名 作为 命令 行 参数 ， 读 取 


这 两 个 文本 文件 并 在 线性 时 间 内 找 出 同时 出 现在 两 个 文件 中 的 最 长 子 字符 串 。( 在 1970 年 , D.Knuth 


608 > 第 


927 


\D 


6.31 


6.32 


音 北 时 
月 人 


6 章 


猜测 这 是 不 可 能 的 。 ) 提示 : 为 字符 串 s#t 创建 后 级 数组 ， 其 中 s 和 上 是 文本 字符 串 ， 而 # 是 一 
个 两 者 都 不 包含 的 字符 ) 。 

Burrow-Wheeler 变换 。Burrow-Wheeler 变换 ( BWT ) 是 一 种 用 于 数据 压缩 算法 中 的 变换 ， 包 括 
bzip2 和 高 吞吐 量 的 基因 组 测序 等 。 编 写 一 个 SuffixArray 的 用 例 用 以 下 方法 在 线性 时 间 内 计 
算 BWT。 给 定 一 个 长 度 为 N 的 字符 串 ( 以 一 个 文件 结束 符 $ 结尾 ， 它 小 于 其 他 任意 字符 ) 。 
使 用 一 个 NxNN 的 和 矩阵， 其 中 每 一 行 均 为 原文 的 一 个 不 同 的 回环 变 位 。 按 照 字典 顺序 将 所 有 行 
排序 。Burrow-Wheeler 变换 就 是 排序 后 的 矩阵 中 最 右 侧 的 列 。 例 如 ，mississippi$ 的 BWT 
是 ipssm$pissii。Burrow-Wheeler 逆 变 换 是 BWT 的 逆序 。 例 如 ，ipssm$pissii 的 BWI 是 
mississippi$。 编 写 一 个 用 例 ， 在 线性 时 间 内 ， 为 某 个 字符 串 的 BWT 计算 它 的 BWI。 

环形 字符 串 的 线性 化 。 编 写 一 个 SuffixArray 的 用 例 ， 对 于 给 定 的 字符 串 ， 在 线性 时 间 内 找 出 它 
的 字典 序列 最 小 的 回环 变 位 。 这 个 问题 来 源 于 化 学 数据 库 中 的 各 种 环形 分 子 ， 每 一 种 分 了 都 表示 
为 一 个 环形 的 字符 串 。 人 们 需要 一 种 标准 的 表示 方法 ( 最 小 的 回环 变 位 ) 使 得 用 字符 串 的 任意 回 
环 变 位 作为 键 都 能 找到 该 分 子 。 ( 请 见 练习 6.27 和 练习 6.28。 ) 

重复 大 次 的 最 长 子 字符 串 。 编 写 一 个 SuffixArray 的 用 例 ， 对 于 给 定 的 字符 串 和 一 个 整数 k， 找 
出 其 中 被 至 少 重复 了 k 次 的 最 长 子 字符 串 。 

较 长 的 重复 字符 串 。 编 写 一 个 SuffixArray 的 用 例 ， 对 于 给 定 的 字符 串 和 一 个 整数 L， 找 出 长 度 
至 少 为 上 的 重复 子 字符 串 。 

k-gram 频率 统计 。 开 发 并 实现 一 个 抽象 数据 类 型 ， 对 字符 串 进行 预 处 理 以 支持 高 效 回答 如 下 形式 
的 问题 : “给 定 的 kgram 出 现 了 多 少 次 ?" 每 次 查询 在 最 坏 情况 下 所 需 的 时 间 应 该 与 HogN 成 正比 ， 
其 中 N 为 字符 串 的 长 度 。 


图 练习 : 最 大 流 问题 
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在 含有 VW 个 项 点 和 EE 条 边 的 任意 st- 流量 网 络 中 ， 如 果 所 有 边 的 容量 都 是 小 于 M 的 正 整数 ， 可 能 
的 最 大 流量 值 是 多 少 ? 为 存在 和 不 存在 平行 边 的 情况 分 别 给 出 答案 。 

如 果 原 流量 网 络 在 删 去 终点 时 将 变 成 一 棵 树 , 给 出 一 个 算法 解决 这 种 流量 网 络 中 的 最 大 流量 问题 。 
真 假 判 断 。 如 果 为 真 ， 给 出 简短 的 证 明 ; 如 果 为 假 ， 给 出 一 个 反例 。 

a. 在 任意 最 大 流 配置 中 均 不 存在 所 有 边 的 正 流 均 为 正 的 有 问 环 。 

b. 存在 一 种 不 包含 所 有 边 的 流量 均 为 正 的 有 向 环 的 最 大 流 配置 。 

c. 如 果 所 有 边 的 容量 均 不 同 ， 那 么 最 大 流量 配置 是 唯一 的 。 

d. 如 果 所 有 边 的 容量 是 一 个 等 差 数列 ， 那 么 最 小 切 分 是 唯一 的 (remains unchanged ) 。 

e. 如 果 所 有 边 的 容量 是 一 个 等 比 数列 ， 那 么 最 小 切 分 是 唯一 的 。 

完成 命题 G 的 证 明 。 说 明 为 何 每 当 一 条 边 成 为 关键 边 时 ， 经 过 它 的 增 广 路 径 的 长 度 必 然 会 加 2。 
在 互联 网 上 找 出 一 个 大 型 网 络 , 使 用 真实 数据 测试 最 大 流 算 法 。 你 可 以 选择 交通 运输 网 络 〈 公 路 、 
铁路 或 者 航空 ) 、 通 信 网 络 ( 电话 或 者 计算 机 网 络 ) 或 者 物流 配送 网 络 。 如 果 边 的 容量 不 明 ， 根 
据 一 个 合理 的 模型 自己 添加 这 些 数据 。 编 写 一 个 程序 使 用 我 们 学 过 的 接口 根据 你 的 数据 实现 流量 
网 络 的 配置 。 如 有 需要 ， 编 写 一 个 私有 方法 清理 数据 。 

编写 一 个 随机 网 络 生成 器 来 生成 稀 玻 网 络 ， 其 中 边 的 容量 为 0 到 2” 之 间 的 整数 。 用 一 个 单独 的 类 
表示 容量 并 开发 两 种 实现 : 一 种 生成 均匀 分 布 的 容量 值 ， 一 种 根据 高 斯 分 布 生成 容量 值 。 实 现 一 
个 用 例 ， 对 于 一 组 精心 选择 的 天 和 巨 值 用 两 种 分 布 方法 生成 随机 网 络 ， 这 样 你 就 可 以 使 用 它们 进 
行 各 种 测试 了 。 
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编写 一 个 程序 ， 在 平面 上 随机 生成 VY 个 点 。 构 造 流 量 网 络 时 ， 对 于 每 个 点 都 将 它 和 距离 dq 以 内 的 
所 有 点 相互 连接 ， 用 练习 6.42 中 的 随机 模型 设置 每 条 边 的 容量 。 

简单 的 归 约 。 编 写 FordFu1lkerson 的 用 例 ， 在 以 下 类 型 的 流量 网 络 中 寻找 最 大 流 配置 。 

口 管道 没有 方向 。 

口 起 点 和 终点 的 数量 不 限 ， 也 不 限制 指向 起 点 或 是 由 终点 指出 的 边 的 数量 。 

口 容量 有 下 限 。 

口 顶点 有 流量 限制 。 

产品 分 发 。 假 设 流量 表示 城市 之 间 用 卡车 运送 的 产品 ， 边 u-v 上 的 流量 表示 某 一 天 从 vu 市 运送 到 
v 市 的 产品 数量 。 编 写 一 个 用 例 ,为 卡车 司机 打印 出 每 天 的 订单 ,告诉 他 们 应 该 去 哪个 城市 上 多 少 货 ， 
然后 去 哪个 城市 乞 多 少 货 。 假 设 卡车 司机 的 数量 无 限 多 且 对 于 任意 一 个 分 发 点 ， 所 有 货物 全 部 收 
到 了 之 后 才 会 开始 发 货 。 

就 业 安置 。 开 发 一 个 FordFulkerson 的 用 例 ， 根 据 命 题 ] 中 的 归 约 解决 就 业 安置 问题 。 使 用 一 张 
符号 表 将 名 字 变 为 数字 并 用 于 流量 网 络 中 。 

构造 一 系列 的 二 分 图 匹配 问题 ， 其 中 任意 增 广 路 径 算 法 解决 对 应 的 最 大 流 问题 所 使 用 的 所 有 增 广 
路 径 的 平均 长 度 与 成 正比 。 

st- 连通 性 。 开 发 一 个 FordFulkerson 的 用 例 ， 对 于 给 定 的 无 向 图 G 和 顶点 s 和 t+， 找 出 在 G 中 使 
t 和 s 不 连通 所 需 切 断 的 最 小 边 数 。 


最 多 有 多 少 条 任意 边 均 不 相同 的 路 径 。 


图 练习 : 问题 的 归 约 与 不 可 解 性 
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找到 37 703 491 的 最 大 因数 。 

证 明 最 短路 径 问题 可 以 归 约 为 线性 规划 问题 。 

如 果 P 关 NP， 是 否 存 在 能 够 在 N*”” 时 间 内 解决 某 个 NP- 完全 问题 的 算法 ? 解释 你 的 回答 。 
假设 某 人 发 明了 一 种 保证 能 够 在 与 1.7 成 正比 的 时 间 内 解决 布尔 可 满足 性 问题 的 算法 。 这 说 明 我 
们 能 够 在 与 1.1 成 正比 的 时 间 内 解决 其 他 NP- 完全 问题 吗 ? 

一 个 能 够 在 与 1.1 成 正比 的 时 间 内 解决 整数 线性 规划 问题 的 程序 的 意义 是 什么 ? 

给 出 一 个 从 顶点 覆盖 问题 向 0-1 整数 线性 不 等 式 可 满足 性 问题 的 多 项 式 时 间 的 归 约 。 

使 用 无 向 图 中 的 汉密尔顿 路 径 问 题 的 NP- 完全 性 证 明 在 有 向 图 中 寻找 汉密尔顿 路 径 的 问题 也 是 
NP- 完全 的 。 

假设 两 个 问题 都 已 知 是 NP- 完全 的 ， 这 说 明 能 够 在 多 项 式 时 间 内 将 两 者 相互 归 约 吗 ? 

假设 问题 X 是 NP- 完全 的 , X 能 够 在 多 项 式 时 间 内 归 约 为 问题 Y， 而 且 了 也 能 在 多 项 式 时 间 内 归 
约 为 YX， 那么 了 一 定 是 NP- 完全 的 吗 ? 

答 : 不 ， 因 为 了 不 一 定 属于 NP。 

假设 我 们 有 一 个 能 够 解决 布尔 可 满足 性 问题 的 确定 性 版 本 的 算法 ， 这 说 明 存 在 某 种 变量 赋值 能 够 
满足 所 有 的 布尔 表达 式 。 说 明 如 何 找到 这 种 赋值 方案 。 

假设 我 们 有 一 个 能 够 解决 项 点 覆盖 问题 的 确定 性 版 本 的 算法 ， 这 说 明 对 于 某 个 给 定 的 大 小 存在 顶 
点 覆盖 的 方案 。 说 明 如 何 解 决 最 小 顶点 覆盖 问题 的 最 优化 版 本 。 
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6.60 ”解释 为 何 项 点 覆盖 问题 的 最 优化 版 本 不 一 定 是 一 个 搜索 问题 。 


6.61 


6.62 


答 : 因为 并 没有 很 好 的 方法 来 验证 给 定 的 节 是 否 是 最 优 的 。 ( 尽管 我 们 可 以 用 二 分 查找 在 这 个 问 
题 的 搜索 版 本 上 找到 最 优 解 。 ) 

假设 问题 和 问题 了 均 为 搜索 问题 ， 且 能 够 在 多 项 式 时 间 内 归 约 为 Y。 我们 可 以 得 到 以 下 哪些 
结论 。 

a. 如 果 了 是 NP- 完全 的 ， 那么 也 是 。 

b. 如 果 针 是 NP- 完全 的 ， 那么 了 也 是 。 

c. 如 果 针 属于 P， 那么 了 也 属于 P。 

d. 如 果 了 属于 P， 那么 对 也 属于 P。 

假设 P 六 NP， 我 们 可 以 得 到 以 下 哪些 结论 。 

a. 如 果 问 题 艺 是 NP- 完全 的 ， 那么 X 无 法 在 多 项 式 时 间 内 得 到 解决 。 

b. 如 果 问 题 属 于 NP， 那 么 X 无 法 在 多 项 式 时 间 内 得 到 解决 。 

c. 如 果 问 题 蕊 属于 NP 但 并 不 是 NP- 完全 的 ， 那么 凶 可 以 在 多 项 式 时 间 内 得 到 解决 。 

d. 如 果 问 题 属 于 P， 那 么 XX 就 不 是 NP- 完全 的 。 
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IndexMaxPQ，320 序 接口 ， 见 API ) 
IndexMinPQ，320 client ( 用例 ) ，28 
Interval11D，77 contract ( 契约 ) ，33 
Interval2D, 77 data type definition( 数据 类 型 定义 ) ，65 
java.1lang.Double, 34 implementation ( 实现 ) ，28 
java.lang.Integer, 34 library of static methods ( 静态 方法 库 ) ，28 
java.lang.Math, 28 Arbitrage detection ( 套 汇 检测 ) ，679-681 
java.lang.String, 80 Arithmetic expression evaluation ( 算术 表达 式 求 值 ) ， 


java.util.Arrays, 29 128-131 


Array (数组 ) ，18-21 
2-dimensional ( 二 维 数组 ) ，19 
aliasing ( 别名 ) ，19 
as object ( 数组 对 象 ) ，72 
bounds checking ( 边界 检查 ) ，19 
memory usage of ( 内 存 使 用 ) ，202 
of objects ( 数组 对 象 ) ，72 
ragged (参差 不 齐 ) ，19 


Array resizing. See Resizing array ( 调整 数组 大 小 ， 见 可 调 


整 大 小 的 数组 ) 
Arrays.sort() ，29, 306 
Articulation point (关节 点 ) ，562 
ASCII encoding ( ASCII 编码 ) ，696, 815 
Assertion ( 有 断言 ) ，107 
assert statement ( 肠 言 语句 ) ，107 
Assignment statement ( 赋值 语句 ) ，14 
Associative array ( 关联 数组 ) ，363 
Augmenting path( 增 广 路 径 ) ，891 
Autoboxing ( 自动 装 箱 ) ，122, 214 
AVLtree (AVL 树 ) ，452 





Backtracking ( 回溯 法 ) ，921 
Bag data type ( 背包 数据 类 型 ) ，124, 154-156 
Balanced search tree (平衡 查找 树 ) ，424-457 
2-3 search tree ( 2-3 查找 树 ) ，424-431 
AVLtree (AVL 树 ) ，452 
B-tree (B- 树 ) ，866-874 
red-black BST ( 红 黑 二 又 查找 树 ) ，432-447 
Base case ( 最 简单 的 情况 ) ，25 
Bellman-Ford ( Bellman-Ford 算法 ) ，671-678 
Bellman, R.，683 
Bentley, J.，298, 306 
BFS. See Breadth-first search ( BFS， 见 Breadth-first search ) 
Biconnectivity ( 双向 连通 性 ) ，562 
Big-Oh notation (大 0 记 法 ) ，206-207 
Big-Omega notation ( 大 Omega 记 法 ) ，207 
Big-Theta notation ( 大 Theta 记 法 ) ，207 
Binary data (二进制 数据 ) ，811-815 
Binary dump( 二进制 转 储 ) ，813-814 
Binary heap (二 叉 堆 ) ，313-322 
amortized analysis of ( 二 又 堆 的 均 摊 分 析 ) ，320 
analysis of ( 分 析 二 叉 堆 ) ，319 
change priority( 改变 优先 级 ) ，321 
definition ( 二 叉 堆 的 定义 ) ，314 
deletion (删除 ) ，321 
heapsort ( 堆 排 序 ) ，323-327 


insertion ( 插入 元 素 ) ，317 

remove the maximum ( 删除 最 大 元 素 ) ，317 
remove the minimum ( 删除 最 小 元 素 ) ，321 
representation ( 二 叉 堆 表 示 法 ) ，313 

sink and swim ( 下 沉 和 上 浮 ) ，315-316 


Binary logarithm function ( 以 2 为 底 的 对 数 函 数 ) ，185 


Binary search ( 二 分 查找 ) ，8 
analysis of ( 二 分 查找 的 分 析 ) ，383, 391 
bitonic search ( 双 调 查找 )，210 
for a fraction ( 分 数 的 二 分 查找 ) ，211 
in a sorted array ( 在 有 序数 组 中 进行 二 分 查找 ) ， 
46-47, 98-99 
local minimum ( 数组 的 局 部 最 小 元 素 ) ，210 
symbol table ( 数组 符号 表 ) ，378-384 
Binary search tree ( 二 叉 查 找 树 ) ，396-423 
analysis of ( 二 叉 查 找 树 的 分 析 ) ，403 
anatomy of ( 详解 二 叉 查 找 树 ) ，396 
AVLtree (AVL 树 ) ，452 
certification (认证) ，419 
definition ( 二 叉 查找 树 的 定义 ) ，396 


delete the min/max ( 删除 最 大 键 和 删除 最 小 键 ) ，408 


floor and ceiling ( 向 上 取 整 和 向 下 取 整 函数 ) ，406 
height ( 树 的 高 度 ) ，412 
Hibbard deletion ( Hibbard 删除 方法 ) ，410, 422 
insertion (插入 ) ，400-401 
minimum and maximum ( 最 大 键 和 最 小 键 ) ，406 
nonrecursive ( 非 递归 ) ，417 
perfectly balanced ( 完美 平衡 的 ) ，403 
range query ( 范围 查找 ) ，412 
rank and select ( 排名 和 选择 ) ，415 
recursion (递归 ) ，415 
representation ( 数据 表示 ) ，397 
rotation ( 旋转 ) ，433-434 
search ( 查找 ) ，397-401 
selection and rank (选择 和 排名 ) ，406, 408 
symmetric order ( 二叉树 的 对 称 性 ) ，410 
threading (线性 符号 表 ) ，420 

BinaryStdIn library (BinaryStdIn 库 ) ，811-815 


BinaryStdOut library (BinaryStdout 库 ) ，811-815 


Binary tree (二 又 树 ) 
anatomy of ( 详解 二 叉 树 ) ，396 
binary heap (二 又 堆 ) ，313 
complete ( 实现 ) ，313, 314 
external path length ( 外 部 路 径 总 长 度 ) ，418 
heap-ordered ( 堆 有 序 ) ，313 
height ( 完全 二 叉 树 的 高 度 ) ，314 
inorder traversal ( 中 序 遍 历 ) ，412 
internal path length( 内 部 路 径 长 度 ) ，412 
level-order traversal ( 按 层 遍 历 ) ，420 
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preorder traversal ( 前 序 遍历 ) ，834 

weighted external path length( 加权 外 部 路 径 长 度 ) ，832 
Binomial coeffcient (二 项 式 系数 ) ，185 
Binomial distribution ( 二 项 分 布 ) ，59, 466 
Binomial tree ( 二 项 树 ) ，237 
Bipartite graph ( 二 分 图 ) ，521, 546-547 
Birthday problem ( 生日 问题 ) ，215 
Bitmap (位 图 ) ，822 
Bitonic array ( 双 调 数组 ) ，210 
Bitonic search( 双 调 查找 ) ，210 
Bitonic shortest paths( 双 调 最 短路 径 ) ，689 
Blacklist filter ( 黑 名 单 过 滤 ) ，491 
Boerner's theorem ( Boerner 定理 ) ，357 
boolean primitive data type( 布尔 型 原始 数据 类 型 ) ，12 
Boolean satisfiability( 布尔 可 满足 性 ) ，913, 920 
Boruvka, O., 628 
Boruvka's algorithm ( Boruvka 算法 ) ，629, 636 
Bottleneck shortest paths ( 瓶颈 最 短路 径 ) ，690 
Bottom-up 2-3-4 tree( 自 底 向 上 的 2-3-4 树 ) ，451 
Bottom-up mergesort ( 自 底 向 上 的 合并 排序 ) ，277 
Boyer-Moore ( Boyer-Moore 算法 ) ，770-773 
Boyer, R. S., 759 
Breadth-first search ( 广度 优先 搜索 ) 

in a digraph ( 在 有 向 图 中 ) ，573 

in a graph ( 在 图 中 ) ，538-542 
break statement ( break 语句 ) ，15 
Bridge in a graph ( 连通 图 中 的 桥 ) ，562 
B-tree (B- 树 ) ，448, 866-874 

analysis of ( B- 树 分 析 ) ，871 

insertion ( 搬入) ，868 

perfect balance ( 完美 平衡 ) ，868 

search ( 搜索) ，868 
Buffer data type ( 缓冲 区 数据 类 型 ) ，170 
Byte (8 bits) ( 字 节 (1 字 节 等 于 8 比特 ) ) ，200 
byte primitive data type (byte 原 书 数据 类 型 ) ，13 
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Cache (缓存 ) ，195, 307, 327, 343, 394, 419, 423 
Call a method ( 调用 方法 ) ，22 
Callback ( 回调 ) ，339. See also Interface ( 男 见 接口 ) 
Cast ( 类 型 转换 ) ，13, 328, 346 
Catenable queue ( 可 连接 的 队列 ) ，171 
Ceiling function ( 向 上 取 整 函数 ) 
binary search tree (二 又 查找 树 ) ，406 
mathematical function ( 数学 隐 数 ) ，185 
ordered array ( 有 序数 组 ) ，380 
symbol table ( 符号 表 ) ，367 


Cell-probe model ( cell-probe 模型 ) ，234 
Center of a graph ( 图 的 中 点 ) ，559 
Certification( 认证 ) 
binary heap( 二 又 堆 ) ，330 
binary search ( 二 分 查找 ) ，392 
binary search tree ( 二 又 查 找 树 ) ，419 
minimum spanning tree ( 最 小 生成 树 ) ，634 
NP complexity class ( NP 复杂 性 类 ) ，912 
red-black BST ( 红 黑 二 又 查 找 树 ) ，452 
search problem ( 搜索 问题 ) ，912 
shortest paths ( 最 短路 径 ) ，651 
sorting (排序 ) ，246, 265 
char primitive data type ( char 原始 数据 类 型 ) ，12, 696 
Chazelle, B., 629, 853 
Chebyshev’s inequality ( Chebyshev 不 等 式 ) ，303 
Church-Turing thesis ( 丘 奇 - 图 灵 论 题 ) ，910 
Circular linked list( 环形 链表 ) ，165 
Circular queue ( 环形 队列 ) ，169 
Circular rotation ( 回环 变 位 ) ，114 
Classpath ( 类 路 径 ) ，66 
Client (用 例 ) ，28 
Closest pair ( 最 接近 的 一 对 ) ，210 
Collections (集合 ) ，120 
bag ( 背包 ) ，124-125 
catenable ( 可 连接 的 ) ，171 
deque (出 列 ) ，167 
generalized queue (一般 队 列 ) ，169 
priority queue ( 优先 队列 ) ，308-334 
pushdown stack (下 压 栈 ) ，127 
queue (队列 ) ，126 
random bag ( 随机 背包 ) ，167 
random queue ( 随机 队列 ) ，168 
ring buffer ( 环形 缓冲 区 ) ，169 
stack( 栈 ) ，127 
steque，167 
symbol table (符号 表 ) ，360-513 
trie (单词 查找 树 ) ，730-757 
Collision resolution ( 处 理 碰撞 冲突 ) ，458 
Combinatorial search ( 组 合 搜索 ) ，350 
Command-line argument ( 命令 行 参数 ) ，36 
Command-line interface ( 命令 行 接口 ) 
command-line argument ( 命令 行 参数 ) ，36 
compile a Java program ( 编译 Java 程序 ) ，10 
piping (管道 ) ，40 
redirection ( 重 定向 ) ，40 
run a Java program ( 运行 Java 程序 ) ，10 
standard input ( 标准 输入 ) ，39 
standard output ( 标准 输出 ) ，37-38 
terminal window ( 终端 窗口 ) ，36 


Comma-separated-value ( 逗号 分 隔 的 值 ) ，493 
Comparable interface ( Comparable 接口 ) 
compareTo() method ( compareTo() 方法 ) ，246-247 
Date，247 
natural order ( 自然 排序 ) ，337 
sorting (排序 ) ，244, 246-247 
String，353 
symbol table ( 符号 表 ) ，368-369 
Transaction，266 
Comparator interface ( Comparator 接口 ) ，338-340 
compare() method，338-339 
priority queue ( 优先 队列 ) ，340 
Transaction，339 
compare() method ( compare() 方法 ) 
See Comparator interface ( 见 Comparator 接口 ) 
compareTo() method ( compareTo() 方法 ) 
See Comparable interface ( 见 Comparable 接口 ) 
Compile a program ( 编译 程序 ) ，10 
Compiler ( 编译 器 ) ，492, 498 
Complete binary tree ( 完全 二 叉 树 ) ，314 
Complete graph ( 完全 有 向 图 ) ，681 
Compression. See Data compression ( 压缩， 见 数据 压缩 ) 
Computability ( 可 计算 性 ) ，910 
Computational complexity ( 计算 复杂 性 ) 
Cook-Levin theorem (Cook-Levin 定理 ) ，918 
Intractability 〈 不 可 解 性 ) ，910-921 
NP-complete (NP- 完全 ) ，917-918 
NP, 912 
P, 914 
P= NP question, 916 
poly-time reduction ( 多 项 式 时 间 问 题 的 相互 归 约 ) ， 
916-917 
sorting ( 排序 ) ，279-282 
Computational geometry ( 计算 几何 学 ) ，76 
Concatenation of strings ( 字符 串 连接 ) ，34 
Concordance ( 对 照 索 引 ) ，510 
Concrete type ( 具体 类 型 ) ，122, 134 
Conditional statement ( 条 件 语句 ) ，15 
Connected components ( 连通 分 量 ) 
Computing ( 计算 ) ，543-546 
Defined (定义 ) ，519 
union-find ( union-find 算法 ).，217 
Connected graph ( 连通 图 ) ，519 
Connectivity ( 连通 性 ) 
articulation point ( 关节 点 ) ，562 
biconnectivity (双向 连通 性 ) ，562 
bridge ( 桥 ) ，562 
components ( 分 量 ) ，543-546 
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dynamic ( 动态 的 ) ，216 
edge-connected graph ( 边 连 通 图 ) ，562 
strong connectivity ( 强 连通 性 ) ，584-591 
undirected graph ( 无 向 图 ) ，530 
union-fnd ( union-find 算法 ) ，216-241 
Constant running time ( 常数 级 别 的 运行 时 间 ) ，186 
Constructor ( 构造 函数 ) ，65, 84-85 
continue statement ( continue 语句 ) ，15 
Contract ( 契约 ) ，33 
Cook-Levin theorem ( Cook-Levin 定理 ) ，918 
Cook, S.，759, 918 
Cost model ( 成 本 模型 ) ，182 
array accesses ( 数组 的 访问 次 数 ) ，182, 220, 369 
binary search ( 二 分 查找 ) ，184 
B-tree (B- 树 ) ，866 
compares ( 比较 ) ，369 
equality tests ( 等 价 性 测试 ) ，369 
searching ( 查找 ) ，369 
sorting ( 排序) ，246 
symboltable ( 符号 表 ) ，369 
3-sum〈3-sum 问题 ) ，182 
union-fnd ( union-find 算法 ) ，220 
Coupon collector problem ( 优惠 券 收集 问题 ) ，215 
Covariant arrays ( 共 变 数组 ) ，158 
CPM. See Critical-path method ( CPM， 见 最 短路 径 算法 ) 
C language (C 语言 ) ，104 
C++ language (C++ 语言 ) ，104 
Critical edge ( 关键 边 ) ，633, 690, 900 
Critical path ( 关键 路 径 ) ，663 
Critical-path method ( 关键 路 径 法 ) ，663, 664 
Crossing edge ( 横 切 边 ) ，606 
Cubic running time (立方 级 别 的 运行 时 间 ) ，186 
Cuckoo hashing ( Cuckoo 散 列 函数 ) ，484 
Cut ( 切 分 ) ，606 
See also Mincut problem ( 另 见 Mincut problem ) 
capacity of ( 容量 ) ，892 
optimality conditions ( 最 优 条 件 ) ，634 
property for MST ( 最 小 生成 树 定理 ) ，606 
st-cut ( st- 切 分 ) ，892 
Cycle ( 环 ) 
Eulerian ( 欧 拉 ) ，562, 598 
Hamiltonian (汉密尔顿 ) ，562 
in a digraph ( 在 有 向 图 中 ) ，567 
in a graph ( 在 图 中 ) ，519 
odd length ( 奇数 长 度 ) ，562 
simple ( 简单 ) ，519, 567 
Cycle detection ( 检测 环 ) ，546-547 
Cyclic rotation of a string ( 字符 串 的 回环 变 位 ) ，784 
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DAG. See Directed acyclic graph (DAG, 见 Directed acyclic 
graph ) 
Dangling else ( 无 主 的 else ) ，52 
Dantzig, G.，909 
Data abstraction ( 数据 抽象 ) ，64-119 
Data compression ( 数据 压缩 ) ，810-851 
fixed-length code ( 定 长 编码 ) ，819-821 
Huffman ( 霍 夫 曼 ) ，826-838 
lossless (无损 ) ，811 
lossy( 有 损 ) ，811 
LZW algorithm (LZW 庄 缩 算法 ) ，839-845 
prefix-free code ( 前 级 码 ) ，826-827 
run-length encoding ( 游程 编码 ) ，822-825 
2-bit genomics code ( 双 位 基因 编码 ) ，819-821 
undecidability ( 不 可 判定 性 ) ，817 
uniquely decodable code ( 唯一 解码 ) ，826 
universal ( 通用 ) ，816 
variable-length code ( 变 长 码 ) ，826 
Data structure ( 数据 结构 ) 
adjacency lists ( 邻接 表 ) ，525 
adjacency matrix ( 邻接 矩 阵 ) ，524 
binary heap ( 二 叉 堆 ) ，313 
binary search tree ( 二 又 查找 树 ) ，396 
binary tree ( 二叉树 ) ，396 
circular linked list ( 环形 链表 ) ，165 
doubly-linked list ( 双向 链表 ) ，146 
linked list (链表 ) ，142-146 
multiway trie ( 多 路 单词 查找 树 ) ，732 
ordered array ( 有 序数 组 ) ，312 
ordered list ( 有 序列 表 ) ，312 
parallel arrays( 平行 的 数组 ) ，378 
parent-link ( 父 链接 ) ，225 
resizing array( 调整 数组 的 大 小 ) ，136 
ternary search trie ( 三 向 单词 查找 树 ) ，746 
unordered array ( 无 序数 组 ) ，310 
unordered list ( 无 序列 表 ) ，312 
Data type ( 数据 类 型 ) 
abstract ( 抽象 数据 类 型 ) ，64 
design of ( 抽象 数据 类 型 的 设计 ) ，96-97 
encapsulation ( 抽象 数据 类 型 的 封装 ) ，96 
Date data type ( 日 期 数据 类 型 ) ，78-79 
compareTo() method ( compareTo() 方法 ) ，247 
equals() method (equalsO) 方法) ，103 
implementation ( 实现 ) ，91 
toString() method ( toString() 方法 ) ，103 
Decision problem ( 决定 性 问题 ) ，913 
Declaration statement ( 声明 语句 ) ，14 


Dedup ( dedup 过 滤器 ) ，490 
Default initialization ( 默认 初始 化 ) ，18, 86 
Defensive copy ( 保护 性 复制 ) ，112 
Degree of a vertex ( 顶点 度数 ) ，519 
Degrees of separation( 间隔 的 度数 ) ，553-554 
Denial-of-service attacks ( 拒绝 服务 攻击 ) ，197 
Dense graph ( 稠密 图 ) ，520 
Deprecated method ( 弃 用 的 方法 ) ，113 
Depth-first search ( 深度 优先 搜索 ) ，530-534 
bipartiteness ( 二 分 图 ) ，547 
connected components ( 连通 分 量 ) ，543 
cycle detection( 检测 环 ) ，547 
directed cycle (有 向 环 ) ，574-581 
longestpath ( 最 长 路 径 ) ，912 
maze exploration( 探索 迷宫 ) ，530 
path finding ( 寻找 路 径 ) ，535-537 
reachability ( 可 达 性 ) ，570-573 
strong components ( 强 连 通 分 量 ) ，584-591 
topological order ( 拓扑 排序 ) ，574-581 
transitive closure( 传递 闭 包 ) ，592 
Tremaux exploration( Tremaux 搜索 ) ，530 
2-colorability ( 双色 ) ，547 
union-find ( union-find 算法 ) ，546 
Depth of a node ( 节点 的 深度 ) ，226 
Deque data type ( 双向 队列 数据 类 型 ) ，167, 212 
Design by contract ( 契约 式 设计 ) ，107 
Deterministic finitestate automaton ( 有 限 状 态 自 动机 ) ，764 
Devroye, L., 412 
DFA. See Deterministic finite state automaton ( DFA， 见 Detr- 
ministic finite-state automaton ) 
Diameter of a graph ( 图 的 直径 ) ，559, 685 
Dictionary (字典 ) ，361. See also Symbol table ( 另 见 Symbol 
table ) 
Digraph. See Directed graph ( 有 向 图 ， 见 Directed graph ) 
Digraph data type( 有 向 图 的 数据 类 型 ) ，568-569 
Dijkstra, E. W., 128, 298, 628, 682 
Dijkstra's 2-stack algorithm ( Dijkstra 双 栈 算 法 ) ，128-131 
Dijkstra’s algorithm ( Dijkstra 算法 ) ，652-657 
bidirectional search ( 双向 搜索 ) ，690 
negative weights ( 负 权 重 ) ，668 
Directed acyclic graph ( 有 向 无 环 图 ) ，574-583 
depth-first orders ( 深度 优先 次 序 ) ，578 
edge-weighted (加 权 ) ，658-667 
Hamiltonian path ( 哈密 顿 路 径 ) ，598 
lowest common ancestor ( 最 近 共 同 祖先 ) ，598 
shortest ancestral path ( 最 短 先 导 路 径 ) ，598 


topological order ( 拓扑 排序 ) ，575 
topological sort ( 拓扑 排序 ) ，575 
Directed cycle ( 有 问 环 ) ，567 
Directed cycle detection (有 向 环 检测 ) 576 
Directed edge ( 有 向 边 ) ，566 
Directed graph (有 向 图 ) ，566-603 
See also Edge-weighted digraph ( 另 见 Edge-weighted 
digraph ) 
acyclic (无 环 ) ，574-583 
adjacency-lists representation ( 邻接 表 表 示 ) ，568， 
S68-569 
all-pairs reachability ( 顶点 对 的 可 达 性 ) ，590 
anatomy of ( 详解 ) ，567 
breadth-first search ( 广度 优先 搜索 ) ，573 
cycle( 环 ) ，567 
cycle detection ( 检测 环 ) ，576 
defined (定义 ) ，566 
directed paths ( 有 向 路 径 ) ，573 
edge ( 边 ) ，566 
Euler cycle (Euler 环 ) ，598 
indegree and outdegree ( 人 度 和 出 度 ) ，566 
Kosaraju’s algorithm ( Kosaraju 算法 ) ，586-590 
path (路径 ) ，567 
postorder traversal ( 后 序 遍 历 ) ，578 
preorder traversal ( 前 序 遍历 ) ，578 
reachability ( 可 达 性 ) ，570-572 
reachable vertex ( 可 达 顶 点 ) ，567 
reverse ( 取 反 ) ，568 
reverse postorder ( 逆 后 序 ) ，578 
Shortest ancestral path ( 最 短 先 导 路 径 ) ，598 
Shortest directed paths ( 最 短 有 向 路 径 ) ，573 
simple ( 简单 ) ，567 
”strong component ( 强 连通 分 量 ) ，584 
strong connectivity ( 强 连通 性 ) ，584-591 
strongly-connected ( 强 连通 ) ，584 
topological order ( 折 补 排序 ) ，575-583 
transitive closure( 传递 闭 包 ) ，592 
Directed path ( 有 向 路 径 ) ，567 


Disjoint set union. See Union find ( 不 相交 集合 并 ， 见 Union 


find ) 
Divide-and-conquer paradigm ( 分 治 思想 的 典型 应 用 ) 
mergesort ( 合并 排序 ) ，270 
quicksort ( 快速 排序 ) ，288, 293 
Division by zero ( 除 零 异 常 ) ，51 
Documentation ( 文档 ) ，28 
Double hashing ( 二 次 散 列 ) ，483 
double primitive data type( double 原始 数据 类 型 ) ，12 
Double probing( 二 次 探测 ) ，483 
Doubling ratio experiment ( 倍率 实验 ) ，192 
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Doubling test ( 双 倍 测试 ) ，176-177 

Doubly-linked list ( 双向 链表 ) ，146 

Draw data type (Draw 数据 类 型 ) ，82, 83 

Dump ( 转 储 ) ，813 

Duplicate keys ( 重复 元 素 ) 
3-way quicksort ( 三 向 切 分 的 快速 排序 ) ，301 
hash table ( 散 列 表 ) ，488 
in a symbol table( 符号 表 中 的 重复 元 素 ) ，363 
MSD string sort ( 高 位 优先 的 字符 串 排序 ) ，715 
priority queue ( 优先 队列 ) ，309 
quicksort ( 快速 排序 ) ，292 
sorting (排序) ，344 
stability ( 稳定 性 ) ，341 
Dutch National Flag ( 荷兰 国旗 问题 ) ，298 
Dynamic connectivity ( 动态 连通 性 ) ，216 
Dynamic memory allocation ( 动态 内 存 分 配 ) ，104 
Dynamic resizing array.See Resizing array ( 动态 调整 数 

组 大 小 ， 见 Resizing array ) 
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Eccentricity of a vertex ( 顶点 的 离心 率 ) ，559 
Edge ( 边 ) 

backward ( 逆向 ) ，891 

critical ( 关键) ，633, 900 

crossing ( 横 切 ) ，606 

data type ( 数据 类 型 ) ，608 

directed ( 有 问 ) ，566, 638 

eligible ( 有 效 的 ) ，646 

forward( 正 向 ) ，891 

incident ( 依附 于 ) ，519 

ineligible ( 无 效 的 ) ，616, 646 

parallel ( 平行 ) ，518 

self-loop ( 自 环 ) ，518 

undirected (无 向 ) ，518 

weighted ( 加 权 ) ，608, 638 
Edge-connected graph ( 边 连通 的 图 ) ，562 
Edge relaxation ( 边 放松 ) ，646-647 
Edge-weighted DAG ( 加 权 有 向 图 ) ，658-667 

critical path method ( 关键 路 径 法 ) ，663-667 

longest paths ( 最 长 路 径 ) ，661 

shortest paths ( 最 短路 径 ) ，658-660 
Edge-weighted digraph ( 加 权 有 向 图 ) 

adjacency-lists ( 邻接 表 ) ，644 

complete ( 完全 ) ，679 

data type ( 数据 类 型 ) ，641 

diameter of ( 直径 ) ，685 

shortest paths ( 最 短路 径 ) ，638-693 


618 和 未 引 


Edge-weighted graph ( 加权 无 向 图 ) 
adjacency-lists ( 邻接 表 ) ，609 
data type( 数据 类 型 ) ，608 
min spanning forest ( 最 小 生成 森林 ) ，605 
min spanning tree ( 最 小 生成 树 ) ，604-637 
Edmonds, J., 901 
Eligible edge ( 有 效 边 ) ，616, 646 
Ellipsoid algorithm ( 椭 球 法 ) ，909 
Empty string epsilon ( 空 字 符 串 s ) ，789, 805 
Encapsulation ( 封装 ) ，96 
Entropy( 炉 ) ，300-301 
Epsilon-transition ( e- 转换 ) ，795 
Equal keys. See Duplicate keys ( 等 值 键 ， 见 Duplicate keys ) 
equals() method (equals() 方法 ) ，102-103 
symbol table ( 符号 表 ) ，365 
Equivalence class ( 等 价 类 ) ，216 
Equivalence relation ( 等 价 性 ) 
connectivity ( 连通 性 ) ，216, 543 
equals() method ( equalsQ 〇 方法) ，102 
strong connectivity ( 强 连通 性 ) ，584 
Erd6s number ( Erd6s 数 ) ，554 
Erd6s, P., 554 
Erd6s-Renyi model ( Erd6s-Renyi 模型 ) ，239 
Error. See also Exception ( 错误， 另 见 异常 ) 
OutOfMemoryError, 107 
StackOverflowError, 57,107 
Euclid’s algorithm ( 欧 几 里 德 算法 ) ，4, 58 
Eulerian cycle ( 欧 拉 环 ) ，562, 598 
Event-driven simulation ( 事件 驱动 模拟 ) ，349, 856-865 
Exception. See also Error (异常 ， 另 见 错误 ) 
Arithmetic，107 
ArrayIndexOutOofBounds，107 
ClassCast, 387 
NoSuchElement, 139 
NullPointer, 159 
Runtime, 107 
UnsupportedOperation, 139 
ConcurrentModification, 160 
exch() method ( exch() 方法 ) ，245, 315 
Exhaustive search ( 穷 举 搜索 ) ，912 
Exponential inequality ( 指数 级 别 ) ，185 
Exponential running time ( 指数 级 别 的 运行 时 间 ) ，186， 
661, 911 
Extended Church-Turing thesis ( 扩展 丘 奇 - 图 灵 论 题 ) ， 
910 
Extensible library (可 扩展 的 库 ) ，101 
External path length〈 外 部 路 径 长 度 ) ，418, 832 
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Factor an integer ( 整数 的 因数 ) ，919 
Factorial function( 阶乘 函数 ) ，185 
Fail-fast iterator ( 快速 出 错 的 迭代 器 ) ，160, 171 
Farthest pair ( 最 遥远 的 一 对 ) ，210 
Fibonacci heap ( 斐 波 纳 契 堆 ) ，628, 682 
Fibonacci numbers ( 斐 波 纳 契 数 ) ，57 
FIFO. See First-in first-out policy ( 先进 先 出 ， 见 先进 先 出 
策略 ) 
FIFO queue. See Queue data type (先进 先 出 队列 ， 见 队列 
数据 类 型 ) 
File system ( 文件 系统 ) ，493 
Filter (过 滤器 ) ，60 
blacklist ( 黑 名 单 ) ，491 
dedup( dedup 过 滤器 ) ，490 
whitelist ( 白 名 单 ) ，8, 491 
final access modifier ( final 访问 修饰 符 ) ，105-106 
Fingerprint search ( 指纹 搜索 ) ，774-778 
Finite state automaton. See Deterministic finite state 
automaton 
First-in-first-out policy ( 先进 先 出 策略 ) ，126 
Fixed-capacity stack ( 定 容 栈 ) ，132, 134-135 
Fixed-length code ( 定 长 编码 ) ，826 
Float primitive data type ( 浮 点 型 原始 数据 类 型 ) ，13 
Flood fill ( 填充) ，563 
Floor function ( 向 上 取 整 函数 ) 
binary search tree ( 二 又 查 找 树 ) ，406 
mathematical function ( 数学 函数 ) ，185 
ordered array ( 有 序数 组 ) ，380 
symbol table( 符号 表 ) ，367, 383 
Flow (流量 ) ，888. See also Maxflow problem ( 另 见 Maxflow 
problem ) 
flow network ( 流量 网 络 ) ，888 
inflow and outfow (流入 量 和 流出 量 ) ，888 
residual network ( 剩余 网 络 ) ，895 
st-flow (st- 流量 ) ，888 
st-flow network ( st- 流量 网 络 ) ，888 
value ( 值 ) ，888 
Floyd, R. W., 326 
Floyd's method ( Floyd 方法 ) ，327 
for loop (for 循环 ) ，16 
Ford-Fulkerson ( Ford-Fulkerson 算法 ) ，891-893 
analysis of ( 分 析 ) ，900 
maximum-capacity path ( 最 大 容量 增 广 路 径 ) ，901 
shortest augmenting path ( 最 短 增 广 路 径 ) ，897 
Ford, L., 683 
Foreach loop( foreach 循环 ) ，138 


arrays ( 数组) ，160 
strings (字符 串 ) ，160 
Forest ( 森林 ) 
graph (图 ) ，520 
spanning ( 生成 ) ，520 
Forest-of-trees ( 森林 ) ，225 
Formatted output ( 格式 化 输出 ) ，37 
Fortran language ( Fortran 语言 ) ，217 
Fragile base class problem ( 脆弱 的 基 类 问题 ) ，112 
Frazer W., 306 
Fredman, M. L., 628 
Function-call stack( 函数 调用 所 需 的 栈 ) ，246, 415 
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Garbage collection ( 垃圾 收集 ) ，104, 195 
loitering ( 对 象 游离 ) ，137 
mark-and-sweep〔( 标记 - 清除 ) ，573 
Gaussian elimination ( 高 斯 消 元 法 ) ，919 
Generics ( 泛 型 ) ，122-123, 134-135 
and covariant arrays ( 泛 型 与 共 变 数组 ) ，158 
and type erasure ( 泛 型 与 类 型 擦 除 ) ，158 
array creation ( 创建 数组 ) ，134, 158 
parameterized type( 参数 化 类 型 ) ，122 
priority queues ( 优先 队列 ) ，309 
stacks and queues( 栈 和 队列 ) ，134-135 
symbol tables( 符号 表 ) ，363 
type parameter ( 类 型 参数 ) ，122, 134 
Genomics ( 基因 组 ) ，492, 498 
Geometric data types ( 几何 对 象 数据 类 型 ) ，76-77 
Geometric sum ( 等 比 数列 之 和 ) ，185 
getClass() method ( getClass() 方法 ) ，101, 103 
Girth of a graph ( 图 的 周 长 ) ，559 
Global variable ( 全 局 变量 ) ，113 
Gosper, R. W., 759 
Graph data type ( 图 数据 类 型 ) ，522-527 
Graph isomorphism ( 图 同 构 ) ，561, 919 
Graph processing ( 图 处 理 ) ，514-693. See also Directed 
graph ( 男 见 Directed graph ) ; See also Edge-weighted 
digraph ( 男 见 Edge-weighted digraph ) ; See also Edge- 
weighted graph ( 男 见 Edge-weighted graph ) ; See also 
Undirected graph ( 男 见 Undirected graph ) ; See also 
Directed acyclic graph ( 男 见 Directed acyclic graph ) 
Bellman-Ford ( Bellman-Ford 算法 ) ，668-681 
breadth-first search ( 广度 优先 搜索 ) ，538-541 
components ( 分 量 ) ，543-546 
critical-path method ( 关键 路 径 法 ) ，664-666 
depth-first search ( 深度 优先 搜索 ) ，530-537 


Dijkstra’s algorithm ( Dijkstra 算法 ) ，652 
Kosaraju’s algorithm (Kosaraju 算法 ) ，586-590 
Kruskal's algorithm ( Kruskal 算法 ) ，624_627 
longest paths ( 最 长 路 径 ) ，911-912 
max bipartite matching ( 最 大 二 分 图 匹配 ) ，906 
min spanning tree ( 最 小 成 生 树 ) ，604-637 
Prim’s algorithm ( Prim 算法 ) ，616-623 
reachability ( 可 达 性 ) ，570-573 
shortest paths ( 最 短路 径 ) ，638-693 
strong components ( 强 连 通 分 量 ) ，584-591 
symbol graphs ( 符号 图 ) ，548 
transitive closure ( 传递 闭 包 ) ，592-593 
union-find ( union-find 算法 ) ，216-241 
Greatest common divisor ( 最 大 公约 数 ) ，4 
Greedy algorithm ( 贪心 算法 ) 
Huffman encoding ( 霍 夫 曼 编 码 ) ，830 
minimum spanning tree ( 最 小 生成 树 ) ，607 
Grep，804 
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Halting problem ( 停机 问题 ) ，910 
Hamiltonian cycle( 汉密尔顿 环 ) ，562, 920 
Hamiltonian path ( 汉密尔顿 路 径 ) ，598, 913, 920 
Handle ( 句柄) ，112 
Hard-disc model( 刚性 球体 模型 ) ，856 
Harmonic number ( 调和 数 ) ，23, 185 
Harmonic sum ( 调和 数 之 和 ) ，185 
hashCode() method (hashCodeQ， 方法 ) ，101, 102, 461- 
462 
Hash function ( 散 列 函数 ) ，458, 459-463 
modular ( 除 留 余数 ) ，459 
perfect ( 完美 散 列 函数 ) ，480 
Rabin-Karp algorithm ( Rabin-Karp 算法 ) ，774 
Hashing. See Hash function ( 散 列 ， 见 Hash function ) 
See also Hash table ( 男 见 Hash table ) 
hash function ( 散 列 函数 ) ，459-463 
time-space tradeoff ( 时 间 和 空间 作出 权衡 ) ，458 
Hash table ( 散 列表 ) ，458-485 
array resizing ( 调整 数组 大 小 ) ，474-475 
clustering ( 键 艇 ) ，472 
collision resolution ( 处 理 碰 挤 冲 帘 ) ，458 
cuckoo hashing ( 布谷 鸟 散 列 ) ，484 
deletion ( 删除 ) ，468 
double hashing (二 次 散 列 ) ，483 
double probing (二 次 探测 ) ，483 
duplicate keys( 重复 元 素 ) ，488 
hashCode() method ( hashCode() 方法 ) ，61-462 
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hash function ( 散 列 函数 ) ，458 
Java library (Java 库 ) ，489 
linear probing ( 线性 探测 ) ，469-474 
load factor ( 使 用 率 ) ，471 
memory usage of ( 内 存 使 用 ) ，476 
primitive types ( 原始 数据 类 型 ) ，488 
separate chaining ( 拉链 法 ) ，464-468 
uniform hashing assumption ( 均匀 散 列 假设 ) ，463 

Head vertex ( 头顶 点 ) ，566 

Heap. See Binary heap〈 堆 ， 见 Binary heap ) 
multiway ( 多 叉 堆 ) ，319 

Heap order ( 堆 有 序 ) ，313 

Heapsort ( 堆 排 序 ) ，323-327 

Height ( 树 的 高 度 ) 
2-3 search tree ( 2-3 查找 树 ) ，429 
binary search tree ( 二 又 查 找 树 ) ，412 
complete binary tree ( 完全 二 叉 树 ) ，314 
red-black BST ( 红 黑 二 又 查 找 树 ) ，444 
tree( 树 ) ，226 

Hibbard deletion ( Hibbard 删除 方法 ) ，422 

Hibbard, T., 410 

Hoare, C. A. R., 205 

Horners method ( Horner 方法 ) ，460 

h-sorted array ( h 有 序数 组 ) ，258 

Huffman compression ( 霍 夫 曼 压 缩 ) ，350, 826-838 
analysis of ( 分析 ) ，833 
optimality of ( 最 优 性 ) ，833 

Huffman, D.，827 


if statement (if 语句) ，15 
if-else statement ( if-else 语句 ) ，15 
Immnutability (〈 不 可 变性 ) ，105-106 
defensive copy ( 保护 性 复制 ) ，112 
of strings (字符 串 的 不 可 变性 ) ，114, 202, 696 
priority queue keys ( 优先 队列 中 的 元 素 ) ，320 
symbol table keys ( 符号 表 中 的 键 ) ，365 
Implementation ( 实现 ) ，28, 88 
Implementation inheritance ( 实现 继承 ) ，101 
import statement ( import 语句 ) ，27, 29, 66 
Incident edge (关联 边 ) ，519 
Increment sequence ( 递增 序列 ) ，258 
In data type ( In 数据 类 型 ) ，41, 83 
Indegree of a vertex ( 顶点 的 人 度 ) ，566 
Index (索引 ) ，361, 496-501 
string (字符 串 索 引 ) ，877 
files (文件 索引 ) ，500-501 


inverted ( 反 向 索引 ) ，498-501 
Index priority queue ( 索引 优先 队列 ) ，320-322 
Dijkstra's algorithm ( Dijkstra 算法 ) ，652 
Prim’s algorithm ( Prim 算法 ) ，620 
Indirect sort ( 间接 排序 ) ，286 
Ineligible edge (无 效 边 ) 
minimum spanning tree ( 最 小 生成 树 ) ，616 
shortest paths ( 最 短路 径 ) ，646 
Infix notation ( 中 组 记 法 ) ，13, 128, 162 
Inherited methods( 继承 的 方法 ) ，66, 100-101 
Compare(), 338-339 
compareTo(), 246-247 
equals(), 102-103 
getClass(), 101 
hashCode(), 101,461-462 
hasNext(), 138 
iterator(), 138 
next(), 138 
toString(), 66, 101 
Inner loop( 内 循环 ) ，180, 184, 195 
Inorder tree traversal ( 中 序 遍 历 ) ，412 
In-place merge ( 原 地 合并 ) ，270 
Input and output ( 输入 和 输出 ) ，82-83 
binary data ( 二 进 制 数据 ) ，812-815 
from a file( 从 文件 重 定 向 标准 输入 或 将 标准 输出 重 
定向 到 文件 ) ，41 
piping ( 管道 ) ，40 
redirection 〈( 重 定向 ) ，40 
Input model ( 输入 模型 ) ，197 
Input size ( 输入 规模 ) ，173 
Insertion sort (插入 排序 ) ，250-252 
Instance method ( 实例 方法 ) ，65, 84 
Instance variable ( 实例 变量 ) ，84 
int primitive data type (int 原始 数据 类 型 ) ，12 
Integer linear inequality satisfiability problem ( 整数 线性 不 
等 式 可 满足 性 问题 ) ，913 
Integer linear programming ( 整数 线性 规划 ) ，920 
Integer overflow( 整数 溢出 ) ，51 
Interface ( 接口 ) ，100 
Comparable, 246-247 
Comparator, 338-340 
Iterable, 138 
Iterator, 139 
Interface inheritance ( 接口 继承 ) ，100 
Interior point method ( 内 点 法 ) ，909 
Internal path length ( 内 部 路 径 长 度 ) ，412 
Internet DNS ( 互联 网 DNS ) ，493 
Internet Movie Database ( 互联 网 电影 数据 库 ) ，497 
Interpreter ( 解释 器 ) ，130 


Interval graph ( 区 间 图 ) ，564 
Intractability (不可解 性 ) ，910-921 
Inversion ( 反 向 ) ，252,，286 
Inverted index (反问 索引 ) ，498-501 
Ising model ( 伊 辛 模型 ) ，920 
Isomorphic graph ( 同 构图 ) ，561 
Item (元素 ) 
contains a key ( 每 个 元 素 有 一 个 主键 ) ，244 
sorting ( 排序 ) ，244 
symbol table ( 符号 表 ) ，387 
with multiple keys ( 多 键 数组 ) ，339 
Item type parameter ( Item 数据 类 型 ) ，134 
Iteration ( 迭代 ) ，123, 138-141 
fail-fast (快速 出 错 ) ，171 
foreach loop ( foreach 循环 ) ，123 


Jacquet, P ，882 

Jarnik”s algorithm ( Jarnik 算法 ) ，628 

See also Prim’s algorithm ( 另 见 Prim 算法 ) 

Jarnik, V.，628 

Java programming ( Java 编程 ) 
array (数组 ) ，18-21 
arrays as objects( 数组 对 象 ) ，72 
arrays of objects( 对象 的 数组 ) ，72 
assertion ( 断言 ) ，107 
assert statement ( assert 语句 ) ，107 
assignment statement ( 赋值 语句 ) ，14 
autoboxing ( 自动 装 箱 ) ，122 
autounboxing ( 自动 拆 箱 ) ，122 
base class( 基 类 ) ，101 
bitwise operators ( 位 运算 符 ) ，52 
block statement ( 语句 块 ) ，15 
boolean expression ( 布尔 表达 式 ) ，13 
break statement ( break 语句 ) ，15 
bytecode( 字 节 码 ) ，10 
cast( 类 型 转换 ) ，13 
class (类 ) ，10, 64 
classpath (类 路 径 ) ，66 
comparison operator ( 比较 运算 符 ) ，13 
conditional statement ( 条 件 语 句 ) ，15 
constructor ( 构造 函数 ) ，65, 84 
continue statement ( continue 语句 ) ，15 
covariant arrays ( 共 变 数组 ) ，158 
create an object ( 创建 对 象 ) ，67 
declaration statement ( 声明 语句 ) ，14 
default initialization ( 默认 初始 化 ) ，18, 86 


deprecated method ( 弃 用 的 方法 ) ，113 
derived class( 派生 类 ) ，101 

Errop 107 

Exception, 107 

expression ( 表达 式 ) ，11, 13 

final modifier ( final 修饰 符 ) ，84, 105-106 
for loop ( for 循环 ) ，16 

foreach loop (foreach 循环 ) ，123 
garbage collection ( 垃圾 收集 ) ，104 

generic array creation( 创建 泛 型 数组 ) ，158 
generics ( 泛 型 ) ，122-123, 134-135 
identifier ( 标识 符 ) ，11 

if statement (if 语句) ，15 

if-else statement ( if-else 语句) ，15 
implicit assignment ( 隐 式 赋值 ) ，16 

import statement ( import 语句 ) ，29 
imported system libraries ( 导入 的 系统 库 ) ，27 
infx expression ( 中 组 表达 式 ) ，13 
inheritance (继承 ) ，100-101 

inherited method ( 继承 的 方法 ) ，66 
initializing declarations (初始 化 声明 ) ，16 
inner class( 内 部 类 ) ，159 

instance method ( 实例 方法 ) ，65, 84, 86 
instance method signature ( 实例 方法 签名 ) ，86 
instance variable ( 实例 变量 ) ，84 

invoke instance method ( 调用 实例 方法 ) ，68 
iterable collections ( 可 迭代 的 集合 ) ，123 
just-in-time compiler (JIT 编译 器 ) ，195 
literal (字面 量 ) ，11 

loitering ( 游离 对 象 ) ，137 

loop statement ( 循环 语句 ) ，15 

memory management ( 内 存 管理 ) ，104 
modular programming ( 模块 化 编程 ) ，26 
nested class( 拣 套 类 ) ，159 

new(), 67 

objects ( 对 象 ) ，67-74 

objects as arguments ( 对 象 作 为 参数 ) ，71 
objects as return values( 对 和 象 作为 返回 值 ) ，71 
operator ( 运算 符 ) ，11 

operator precedence ( 运算 符 优先 级 ) ，13 
orphan (孤儿 ) ，137 

orphaned object ( 孤儿 对 象 ) ，104 
overloading ( 重 载 ) ，12, 24 

override a method ( 重 载 方法 ) ，101 
parameterized type ( 参数 化 类 型 ) ，122, 134 
pass by reference ( 按 引 用 传递 ) ，71 

pass by value ( 按 值 传递 ) ，24, 71 

primitive data type ( 原始 数据 类 型 ) ，11-12 
private class ( private 类 ) ，159 
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private modifier ( private 修饰 符 ) ，84 
protected modifier ( protected 修饰 符 ) ，110 
pub1lic modifier ( pub1ic 修饰 符 ) ，84, 110 
ragged array ( 参差 不 齐 的 数组 ) ，19 
recursion ( 递归) ，25 
reference (引用 ) ，67 
reference type (引用 类 型 ) ，64 
return statement ( return 语句 ) ，86 
scope( 作用 域 ) ，14, 87 
short-circuiting ( 短路 求 值 法 则 ) ，52 
side effects ( 副作用 ) ，24 
single-statement blocks ( 单 语句 代码 段 ) ，16 
standard libraries ( 标准 库 ) ，27 
standard system libraries( 标准 系统 库 ) ，27 
statement (语句 ) ，14 
static method ( 静态 方法 ) ，22-25 
static variable ( 静态 变量 ) ，113 
strong typing ( 强 类 型 ) ，14 
subclass〈《 子 类 ) ，101 
superclass ( 父 类 ) ，101 
this reference ( this 引用 ) ，87 
throw an errorexception ( 抛 出 错误 或 异常 ) ，107 
two-dimensional array ( 二 维 数组 ) ，19 
type conversion ( 类 型 转换 ) ，13, 35 
type erasure ( 类 型 擦 除 ) ，158 
type parameter ( 类 型 参数 ) ，122 
unit testing ( 单元 测试 ) ，26 
using objects ( 使 用 对 象 ) ，69 
variable ( 变量) ，11 
visibility modifier ( 可 见 性 修饰 符 ) ，84 
while loop (while 循环) ，15 
wrapper type ( 封装 类 型 ) ，122 
Java system sort ( Java 系统 排序 ) ，306 
Java virtual machine ( Java 虚拟 机 ) ，51 
java.awt 
tolor 75 
Font, 75 
java.io 
File, 73 
java.lang 
ArithmeticException, 107 
ArrayIndexOutOfBounds,，107 
Boolean, 102 
Byte, 102 
Character, 102 
ClassCastException, 387 
Comparable, 100 
Double, 34, 102 
FToaE, 102 


Integer, 102 
Iterable, 100, 123, 138, 154 
Long, 102 
Math, 28 
NullPointer, 107,113, 159 
Object, 101 
QutOfMemoryError, 107 
RuntimeException, 107 
Short, 102 
StackOverflowError, 57,107 
StringBuilder, 27, 105, 697 
UnsupportedOperation, 139 
Java.net 
URL, 75 
java.util 
ArrayList, 160 
Arrays, 29 
Comparator, 100,339 
ConcurrentModification, 160 
Date, 113 
HashMap, 489 
Iterator, 100, 138-141, 154 
LinkedList, 160 
NoSuchElementException, 139 
PriorityQueue, 352 
Stack, 159 
TreeMap, 489 
Job-scheduling problem. See Scheduling ( 任务 调度 问题 ， 
见 Scheduling ) 
Josephus problem ( Josephus 问题 ) ，168 
Just-in-time compiler ( JIT 编辑 器 ) ，195 


K 


Karp, R., 759, 901 
Kendall tau distance ( Kendall’s tau 距离 ) ，286, 345, 356 
Kevin Bacon number ( Kevin Bacon 数 ) ，553-554 
Key ( 键 ) ，244 
Key equality ( 键 的 等 价 性 ) 

ordered symbol table ( 有 序 符号 表 ) ，368 

symbol table ( 符号 表 ) ，365 
Key-indexed counting ( 键 索引 计数 法 ) ，703-705 
Key type parameter ( Key 类 型 参数 ) 

priority queue ( 优先 队列 ) ，309 

symbol table ( 符号 表 ) ，361 
Keyword in context ( 上 下 文中 的 关键 词 ) ， 879 
Khachian, L. G., 909 
Kleene’s theorem ( Kleene 定理 ) ，794 


Knuth, D. E., 178, 205, 759 

Knuth-Morris-Pratt，762--769 

Kosaraju’s algorithm ( Kosaraju 算法 ) ，586-590 

Kruskal, J.，628 

Kruskal’s algorithm ( Kruskal 算法 ) ，624-627 

KWIC. See Keyword-in-context (KWIC, 见 Keyword-in- 
context ) 


L 


Last-in-first-out policy ( 后 进 先 出 策略 ) ，127 
Las Vegas algorithm ( 拉 斯 维 加 斯 算法 ) ，778 
Leading-term approximation. See Tilde notation( 首 项 近似 ， 
见 Tilde notation ) 
Least-significant digit ( 最 低 有 效 位 数 ) 
See LSD string sort ( 风 LSD string sort ) 
Leipzig Corpora Collection ( Leipzig Corpora 数据 库 ) ， 
371 
Lempel, A.，839 
less() method ( lessQ 方法 ) ，245, 315 
Level-order traversal ( 按 层 遍 历 ) 
binary heap〈 二 又 堆 ) ，313 
binary search tree ( 二 义 查 找 树 ) ，420 
Levin, L., 918 
LIFO. See Last-in first-out policy ( LIFO, 
out policy ) 
LIFO stack. See Stack data type ( LIFO 栈 ， 
type ) 
Linear equation satisfiability ( 线性 等 式 可 满足 性 ) 913 
Linear inequality satisfiability ( 线性 不 等 式 可 满足 性 ) ， 
913 
Linear probing ( 线性 探测 ) ，469-474 
Linear programming ( 线性 规划 ) ，907-909 
ellipsoid algorithm ( 椭 球 法 ) ，909 
interior point method ( 内 点 法 ) ，909 
reductions ( 归 约 ) ，907-909 
simplex algorithm ( 单纯 形 法 ) ，909 
Linear running time ( 线性 级 别 的 运行 时 间 ) ，186 
Linearithmic running time ( 线性 对 数 级 别 的 运行 时 间 ) ， 
186 
Linked allocation ( 链 式 存储 ) ，156 
Linked list ( 链表 ) ，142-146 
building ( 创建 链表 ) ，143 
circular ( 环形 链表 ) ，165 
defined ( 定义 ) ，142 
deletion ( 删除 元 素 ) ，145 
deletion from beginning ( 从 表 头 删除 元 素 ) ，145 
garbage collection ( 垃圾 收集 ) ，145 


见 Last-in first- 


见 Stack data 


insertion ( 插入 ) ，145 
insertion at beginning ( 在 表 头 插入 节点 ) ，144 
insertion at end ( 在 表 尾 插入 节点 ) ，145 
iterator ( 和 克 代 器 ) ，154-155 
memory usage of ( 内 存 使 用 ) ，201 
Node data type ( Node 数据 类 型 ) ，142 
queue (队列 ) ，150 
reverse a ( 将 链表 反 转 ) ，165 
sequential search ( 顺序 查找 ) ，374 
shuffle a ( 打 乱 链表 ) ，288 
sort a( 链表 排序 ) ，286 
stack ( 栈 ) ，147-149 
traversal ( 裔 历 ) ，146 
Literal ( 字面 量 ) 
null, 112-113 
primitive type ( 原始 数据 类 型 ) ，11 
string ( 字符 串 ) ，80 
Load-balancing ( 负载 均衡 ) ，349, 909 
Load factor ( 使 用 率 ) ，471 
Local minimum ( 数组 的 局 部 最 小 元 素 ) ，210 
Logarithm function ( 对 数 函 数 ) 
binary ( 以 2 为 底 的 对 数 函 数 ) ，185 
integerbinary ( 以 2 为 底 的 整 型 对 数 函 数 ) ，185 
natural ( 自然 对 数 函 数 ) ，185 
Logarithmic running time ( 线性 对 数 级 别 的 运行 时 间 ) ， 
186 
Log-log plot ( 对 数 图 像 ) ，176 
Loitering ( 游离 对 象 ) ，137 
Longest common prefx ( 最 长 公共 前 级 ) ，875 
Longest paths( 最 长 路 径 ) ，661, 911 
Longest prefix match ( 匹配 的 最 长 前 级 ) ，842 
Longest processing-time first rule ( 最 大 优先 ) ，349 
Longest repeated substring ( 最 长 重复 子 字符 串 ) ， 875 
1ong primitive data type ( 1ong 原始 数据 类 型 ) ，13 
Loop ( 循环 ) 
for，16 
foreach，138 
inner ( 内 部 循环 ) ，180 
while，15 
Lossless data compression〔 无损 数据 压缩 ) ，811 
Lossy data compression ( 有 损 数据 压缩 ) ，811 
Lower bound (下界 ) 
Priority queue ( 优先 队列 ) ，332 
sorting ( 排序 ) ，279-282 
3-sum problem ( 3-sum 问题 ) ，190 
union-find ( union-find 算法 ) ，231 
Lowest common ancestor ( 最 近 公 共 祖 先 ) ，598 
Loyd, S., 358 
LSD string sort( 低位 优先 的 字符 串 排序 ) ，706-709 
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LZW algorithm ( LZW 压缩 算法 ) ，839-845 object ( 对 象 ) ，67, 201 
compression( 压缩 ) ，840 primitive types ( 原始 数据 类 型 ) ，200 
expansion ( 压缩 的 展开 ) ，841 R-way trie ( R 向 单词 查找 树 ) ，746 
trie representation ( 单词 查找 树 表 示 ) ，840 stack ( 栈 ) ，213 


string (字符 串 ) ，202 
substring ( 子 字符 串 ) ，202-204 


M Mergesort ( 合并 排序 ) ，270-288 
abstract in-place merge ( 抽象 原 地 合并 算法 ) ，270 
Manber, U., 884 analysis of ( 合并 排序 分 析 ) ，272 
Mark-and-sweep garbage collection ( 标记 - 清除 的 垃圾 收 bottom-up ( 自 底 向 上 的 合并 排序 ) ，277 
集 ) ，573 linked list (链表 ) ，279, 286 
Maslow, A., 904 mnultiway ( 多 向 合并 排序 ) ，287 
Maslow's hammer ( Maslow 的 锤子 ) ，904 natural ( 自然 合并 排序 ) ，285 
Matrix data type ( 矩阵 数据 类 型 ) ，60 optimality ( 最 优 算法 ) ，282 
Maxflow-mincut theorem ( 最 大 流 一 最 小 切 分 定理 ) ，894 stability ( 稳定 性 ) ，341 
Maxflow problem ( 最 大 流 问 题 ) ，886-902 top-down ( 自 项 向 下 的 合并 排序 ) ，272 
See also Mincut problem ( 男 见 Mincut problem ) Merging ( 合并 ) ，270-271 
Ford-Fulkerson ( Ford-Fulkerson 算法 ) ，891-893 Method (方法 ) 
integrality property ( 完整 性 ) ，894 inherited ( 继承 的 方法 ) ，100-101 
maxflow-mincut theorem ( 最 大 流 一 最 小 切 分 定理 ) ， instance ( 实例 方法 ) ，68-69, 86-87 
892_894 static ( 静态 ) ，22-25 
max bipartite matching ( 最 大 二 分 图 匹配 问题 ) 906 Mincut problem ( 最 小 切 分 问题 ) ，893 
preflow-push algorithm ( preflow-push 算法 ) ，902 See also Maxflow problem ( 另 见 Maxflow problem ) 
reductions ( 归 约 ) ，905-907 Minimum ( 最 小 元 素 ) 
residual network ( 剩余 网 络 ) ，895-897 in array ( 数组 中 的 最 小 元 素 ) ，30 
Maximum ( 最 大 元 素 ) in binary search tree (二 又 查找 树 中 的 最 小 元 素 ) ，406 
in array ( 数组 中 的 最 大 元 素 ) ，30 in ordered symbol table ( 有 序 符 号 表 中 的 最 小 元 素 ) ， 
in binary heap (二 又 堆 中 的 最 大 元 素 ) ，313 367 


in binary search tree ( 二 又 查找 树 中 的 最 大 元 素 ) ，406 Min spanning forest ( 最 小 生成 森林 ) ，605 
in ordered symbol table ( 有 序 符 号 表 中 的 最 大 元 素 ) ， Min spanning tree ( 最 小 生成 树 ) ，604-637 


367 Boruvka’s algorithm ( Boruvka 算法 ) ，636 
Maximum st-flow problem. See Maxflow problem ( 最 大 st- bottleneck shortest paths ( 瓶颈 最 短路 径 ) ，690 
流量 问题 ， 见 Maxflow problem ) critical edge ( 关键 边 ) ，633 
Max bipartite matching ( 最 大 二 分 图 匹配 问题 ) ，906 crossing edge ( 横 切 边 ) ，606 
Maze (迷宫 ) ，530 cut ( 切 分 ) ，606 
Mcllroy, D., 298, 306 cut optimality conditions( 最 优 切 分 条 件 ) ，634 
McKellar, A., 306 cut property ( 切 分 定理 ) ，606 
Median ( 中 位 数 ) ，332, 345-347 defined (定义 ) ，604 
Median-of-3 partitioning ( 三 取样 切 分 ) ，305 greedy algorithm ( 贪心 算法 ) ，607 
Memory management ( 内 存 管理 ) ，104 Kruskal’s algorithm ( Kruskal 算法 ) ，624-627 
linked allocation ( 链 式 存储 ) ，156 Prim’s algorithm ( Prim 算法 ) ，616-623 
loitering ( 游离 对 象 ) ，137 reverse-delete algorithm ( 逆向 删除 算法 ) ，633 
orphan ( 孤儿 ) ，137 Vyssotsky’s algorithm ( Vyssotsky 算法 ) ，633 
Sequential allocation ( 顺序 存储 ) ，156 Minimum st-cut problem. See Mincut problem ( 最 小 st- 切 
Memory usage( 内 存 使 用 ) ，200-204 分 问题 ， 见 Mincut problem ) 
array (数组 ) ，202 Minotaur ( 米 诺 陶 ) ，530 ， 
hash table( 散 列 表 ) ，476 Mismatched character rule ( 启发 式 处 理 不 匹配 的 字符 法 
linked list ( 链表 ) ，201 则 ) ，770 


nested class ( 藤 套 类 ) > 201 M.L. Fredman, 628 


Modular hash function ( 除 留 余数 法 散 列 函数 ) ，459, 774 

Modular programming ( 模块 化 编程 ) ，26 

Monte Carlo algorithm ( 蒙特 卡 洛 法 ) ，776 

Moore, J. S., 759 

Moore's law ( 摩尔 定律 ) ，194-195 

Morris, J. H., 759 

Most-significant-digit sort. See MSD string sort ( 高 位 优先 
的 字符 串 排 序 ， 见 MSD string sort ) 

Move-to-front ( 前 移 编码 ) ，169 

MSD string sort ( 高 位 优先 的 字符 串 排 序 ) ， 

Multidimensional sort ( 多 维 排序 ) ，356 

Multigraph ( 多 重 图 ) ，518 

Multiple-source reachability problem ( 多 点 可 达 性 问题 ) ， 
570, 797 

Multiset, 509 

Mnultiway mergesort ( 多 向 合并 排序 ) ，287 

Multiway trie. See R-way trie ( 多 向 单词 查找 树 ， 见 R-way 
trie ) 

Myers, E., 884 
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Natural logarithm function ( 自然 对 数 丽 数 ) ，185 
Natural mergesort ( 自然 合并 排序 ) ，285 
Natural order ( 自然 次 序 ) ，337 

Negative cost cycle ( 负 权 重 的 环 ) 

See Negative cycle ( 见 Negative cycle ) 
Negative cycle(〈 负 权重 的 环 ) ，668-670, 677-681 
Nested class ( 嵌 套 类 ) ，159 
Network flow ( 网 络 流量 ) 

See Maxflow problem ( 见 Maxflow problem ) 
new(), 67 
Newton's method ( 牛顿 迭代 法 ) ，23 
NFA. See Nondeterministic finite-state automata ( 非 确定 有 限 

状态 自动 机 ， 见 Nondeterministic finite-state automata ) 
Node data type ( Node 数据 类 型 ) ，159 
bag ( 背包 ) ，155 
binary search tree ( 二 又 查找 树 ) ，398 
Huffman trie ( 霍 夫 曼 单词 查找 树 ) ，828 
linked list ( 链表 ) ，142 
queue ( 队列 ) ，151 
red-black BST ( 红 黑 二 叉 查找 树 ) ，433 
R-way trie ( R 向 单词 查找 树 ) ，734 
stack( 栈 ) ，149 
ternary search trie ( 三 向 单词 查找 树 ) ，747 
Nondeterminism ( 非 确定 ) ，794 
Turing machine ( 图 灵机 ) ，914 
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Nondeterministic finite-state automata ( 非 确 定 有 限 状 态 自 
动机 ) ，794-799 

NP，912 

NP-complete ( NP- 完全 ) ，917-918 

Null link ( 空 链接 ) ，396 

null literal ( nu11 字面 量 ) ，112-113 
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Object ( 对 象 ) ，67-74 
See also Object-oriented programming ( 另 见 Object- 
oriented programming ) 
behavior ( 行为 ) ，67, 73 
identity ( 身份 ) ，67, 73 
memory usage of ( 对 象 的 内 存 使 用 ) ，201 
state ( 对 象 的 状态 ) ，67, 73 
Objectoriented programming ( 面向 对 象 编 程 ) ，64-119 
arrays of objects ( 对 象 数组 ) ，72 
creating an object ( 创建 对 象 ) ，67 
declaring an object ( 声明 对 象 ) ，67 
encapsulation ( 封装 ) ，96 
inheritance ( 继承) ，100 
instance ( 实例 ) ，73 
instantiate an object ( 实例 化 对 象 ) ，67 
invoke instance method ( 调用 实例 方法 ) ，68 
objects ( 对 象 ) ，67-74 
objects as arguments ( 对 象 作为 参数 ) ，71 
objects as return values ( 对 象 作 为 返回 值 ) ，71 
reference (引用 ) ，67 
subtyping ( 子 类 型 ) ，100 
using objects ( 使 用 对 象 ) ，69 
Odd-length cycle in a graph ( 图 中 长 度 为 奇数 的 环 ) ，562 
OOP. See Object-oriented programming ( OOP， 见 Object- 
oriented programming ) 
Operations research ( 运筹 学 ) ，349 
Optimization problem ( 最 优化 问题 ) ，913 
Ordered symbol table ( 有 序 符号 表 ) ，366-369 
floor and ceiling ( 向 上 取 整 和 向 下 取 整 函数 ) ，367 
minimum and maximum ( 最 小 元 素 和 最 大 元 素 ) ，367 
ordered array ( 有 序数 组 ) ，378 
range query ( 范围 查找 ) ，368 
rank and selection 〈 排名 和 选择 ) ，367 
red-black BST ( 红 黑 二 叉 查 找 树 ) ，446 
Order of growth ( 增长 数量 级 ) ，179 
Order-of-growth classifications ( 增长 数量 级 的 分 类 ) ， 
186-188 
Order-of-growth hypothesis ( 增长 数量 级 的 猜想 ) ，180 
Order statistic ( 顺序 统计 ) ，345 
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binary search tree ( 二 又 查找 树 ) ，406 

ordered symbol table ( 有 序 符 号 表 ) ，367 

quicksort( 快速 排序 ) ，345-347 
Orphaned object ( 孤儿 对 象 ) ，104, 137 
Out data type ( Out 数据 类 型 ) ，41, 83 
Outdegree of a vertex ( 顶点 的 出 度 ) ，566 
Output. See Input and output ( 输出 ， 见 Input and output ) 
Overflow( 洲 出 ) ，51 
Overloading ( 过 载 ) 

constructor ( 构造 函数 ) ，84 

static method ( 静态 方法 ) ，24 
Overriding a method ( 重 载 方法 ) ，66, 101 
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Pcomplexity class( P- 复杂 性 类 ) ，914 
性 NP question (P= NP 问题 )，916 
Page data type ( Page 数据 类 型 ) ，870 
Palindrome ( 回 文 ) ，81, 783 
Parallel arrays ( 平行 的 数组 ) 
linear probing ( 线性 探测 ) ，471 
ordered symbol table ( 有 序 符号 表 ) ，378 
sorting (排序 ) ，357 
Parallel edge ( 平行 边 ) ，518, 566, 612, 640 
Parallel job scheduling ( 并 行 任务 调度 ) ，663-667 
Parallel precedence-constrained scheduling ( 优先 级 限制 下 
的 并 行 任务 调度 ) ，663, 904 
Parameterized type. See Generics ( 参数 化 类 型 ， 见 Generics ) 
Parent-link representation ( 父 链接 形式 ) 
breadth-first search tree( 广度 优先 搜索 树 ) ，539 
depth-first search tree ( 深度 优先 搜索 树 ) ，535 
minimum spanning tree ( 最 小 生成 树 ) ，620 
shortest-paths tree ( 最 短路 径 树 ) ，640 
union-find ( union-find 算法 ) ，225 
Parsing ( 解析 ) 
an arithmetic expression ( 算术 表达 式 ) ，128 
a regular expression ( 正则 表达 式 ) ，800-804 
Particle datatype ( Particle 数据 类 型 ) ，860 
Partitioning algorithm 〈 切 分 算法 ) ，290 
2-way ( 二 向 切 分 ) ，288 
3-way (Bentley-McIlroy) ( Bentley-Mcllroy 三 向 切 分 ) ， 
306 
3-way (Dijkstra) ( Dijkstra 三 向 切 分 ) ，298 
median-of-3 ( 三 取样 切 分 ) ，296, 305 
median-of-5 ( 五 取样 切 分 ) ，305 
selection ( 基于 切 分 的 选择 算法 ) ，346-347 
Partitioning item ( 切 分 元 素 ) ，290 
Pass by reference ( 按 引 用 传递 ) ，71 


Pass by value ( 按 值 传递 ) ，24, 71 
Path. See Longest paths 
See also Shortest paths ( 路 径 ， 见 Longest paths ， 
另 见 Shortest paths ) 
augmenting ( 增 广 ) ，891 
Hamiltonian (汉密尔顿 ) ，913, 920 
in a digraph ( 在 有 向 图 中 ) ，567 
in a graph ( 在 图 中 ) ，519 
length of ( 长度) ，519, 567 
simple ( 简单 ) ，519, 567 
Path compression (路径 压缩 ) ，231 
Pattern matching. 
See Regular expression ( 模式 匹配 ， 见 Regular 
expression ) 
Perfect hash function ( 完美 散 列 函 数 ) ，480 
Performance. See Propositions ( 性 能 ， 见 命题 ) 
Permutation ( 排列 ) 
Kendall-tau distance ( Kendall’s tau 距离 ) ，356 
random ( 随机 排列 ) ，168 
ranking (排名 ) ，345 
sorting (排序 ) ，354 
Phone book ( 电话 黄页 ) ，492 
Picture data type ( Picture 数据 类 型 ) ，814 
Piping ( 管道) ，40 
Point data type ( Point 数据 类 型 ) ，77 
Pointer，111. See also Reference ( 指针 ， 另 见 Reference ) 
Safe ( 安全 指针 ) ，112 
Pointer sort ( 指针 排序 ) ，338 
Poisson approximation ( 泊 松 近似 ) ，466 
Poisson distribution ( 泊 松 分 布 ) ，466 
Polar angle( 极 角 ) ，356 
Polar coordinate ( 极 坐 标 ) ，77 
Poly-time reduction ( 多 项 式 时 间 问 题 的 相互 归 约 ) ，916 
Pop operation ( 出 栈 操 作 ) ，127 
Postfix notation 〈 后 绥 记 法 ) ，162 
Postorder traversal ( 后 序 遍历 ) 
of a digraph ( 对 于 有 向 图 ) ，578 
reverse( 取 反 ) ，578 
Power law( 军 次 规则 ) ，178 
Pratt:V.R, 759 
Precedence-constrainted scheduling ( 优先 级 限制 下 的 任 
务 调度 ) ，574-575 
Precedence order ( 优先 级 次 序 ) 
arithmetic expressions ( 算术 表达 式 ) ，13 
regular expressions ( 正则 表达 式 ) ，789 
Prefix-free code ( 前 组 码 ) ，826-827 
compression (压缩) ，829 
expansion ( 压缩 的 展开 ) ，828 
Huffman ( 霍 夫 曼 ) ，833 


optimal ( 最 优 的 ) ，833 
reading and writing ( 读 和 写 ) ，834-835 
trie representation ( 单词 查找 树 表示 ) ，827 
Preorder traversal ( 前 序 遍 历 ) 
of a digraph ( 对 于 无 向 图 ) ，578 
of a trie ( 对 于 单词 查找 树 ) ，834 
Prime number ( 素数 ) ，23, 774, 785 
Primitive data type ( 原始 数据 类 型 ) ，11-12 
memory usage of ( 内 存 使 用 ) ，200 
wrappertype ( 封装 类 型 ) ，102 
Primitive type ( 原始 数据 类 型 ) 
versus reference type ( 及 引用 类 型 ) ，110 
Prim, R.，628 
Prim's algorithm ( Prim 算法 ) ，350, 616-623 
eager ( 即时 实现 ) ，620-623 
lazy( 延 时 ) ，616-619 
Priority queue( 优先 队列 ) ，308-335 
binary heap( 二 叉 堆 ) ，313-322 
change priority ( 改变 优先 级 ) ，321 
delete ( 删除 元 素 ) ，321 
Dijkstra’s algorithm ( Dijkstra 算法 ) ，652 
Fibonacci heap ( 斐 波 纳 契 堆 ) ，628 
Huffman compression ( 霍 夫 曼 压缩 ) ，830 
index priority queue (索引 优先 队列 ) ，320-321 
linked-list ( 链表 ) ，312 
multiway heap ( 多 叉 堆 ) ，319 
ordered array ( 有 序数 组 ) ，312 
Prim's algorithm ( Prim 算法 ) ，616 
reductions ( 归 约 ) ，345 
remove the minimum ( 删除 最 小 元 素 ) ，321 
stability ( 稳定 性 ) ，356 
unordered array ( 无 序数 组 ) ，310 
private access modifier ( private 访问 修饰 符 ) ，84 


Probabilistic algorithm. See Randomized algorithm ( 演算 法 ， 


见 Randomized algorithm ) 
Probe (探测 ) ，471 
Problem size ( 问题 规模 ) ，173 
Programs ( 程序 ) 
Accumulator, 93 
AcyclicLP, 661 
AcyclicSP, 660 
Arbitrage, 680 
Average, 39 
Bag, 155 
BellmanFordSP, 674 
BinaryDump, 814 
BinarySearch, 47 
BinarySearchST，379, 381, 382 
BlackFilter, 491 


BoyerMoore, 772 
BreadthFirstPaths, 540 
BST, 398, 399, 407, 409, 411 
BTreeSET, 872 

Cat, 82 

CC, 544 
CollisionSystem, 863-864 
Count, 699 

Counter, 89 

CPM, 665 

Cycle, 547 

Date, 91, 103, 247 

DeDup, 490 
DegreesOfSeparation, 555 
DepthFirstOrder, 580 
DepthFirstPaths, 536 
DepthFirstSearch, 531 
Digraph, 569 
DijkstraAllPairsSP, 656 
DijkstraSP, 655 
DirectedCycle, 577 
DirectedDFS, 571 
DirectedEdge, 642 
DoublingTest, 177 

Edge, 610 
EdgewWeightedDigraph，643 
EdgeWeightedGraph, 611 
Evaluate, 129 
Event，861 

Example, 245 

FileIndex, 501 
FixedCapacityStack, 135 
FixedCapacityStackOfStrings, 133 
Flips, 70 

FlipsMax, 71 

FlowEdge, 896 
FordFulkerson, 898 
FrequencyCounter, 372 
Genome, 819-820 

Graph, 526 

GREP, 804 

Heap, 324 

HexDump, 814 

Huffman, 836 

Insertion, 251 

KMP, 768 

KosarajuSCC, 587 
KruskalMST, 627 
KWIC，881 
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LazyPrimMST, 619 
LinearProbingHashST, 470 
LookupCSV, 495 
LookupIndex, 499 

LRS, 880 

LSD, 707 

LZW, 842, 844 

MaxPQ, 318 

Merge，271, 273 
MergeBU，278 

MSD，712 

Multiway, 322 

NFA, 799, 802 
PictureDump, 814 
PrimMST, 622 

Queue, 151 

Quick, 289, 291 
Quick3string, 720 
Quick3way, 299 
RabinKarp, 777 
RedBlackBST, 439 
ResizingArrayQueue, 140 
ResizingArrayStack, 141 
Reverse, 127 

RLE, 824 

RoeNns; 72 

Selection, 249 
SeparateChainingHashST, 465 


URE.221 
VisualAccumulator, 95 
WeightedQuickUnionUF, 228 
WhiteFilter, 491 
Whitelist, 99 


Properties ( 性质) ，180 


3-sum, 180 


Boyer-Moore algorithm ( Boyer-Moore 算法 ) ，773 


insertion sort ( 插入 排序 ) ，255 

quicksort ( 快速 排序 ) ，343 

Rabin-Karp algorithm ( Rabin-Kar 算法 ) ，778 
red-black BST ( 红 黑 二 叉 查找 树 ) ，445 
selection sort ( 选择 排序 ) ，255 
separate-chaining ( 拉链 法 ) ，467 

shellsort ( 希 尔 排序 ) ，262 

versus proposition ( 性 质 与 命题 ) ，183 


Propositions ( 命题 ) ，182 


2-3 search tree (2-3 树 ) ，429 
3-Sum，182 
3-way quicksort ( 三 向 快速 排序 ) ，301 


3-way string quicksort ( 3- 向 字符 串 快 速 排序 ) ，723 


arbitrage ( 套 汇 ) ，681 

B-tree (B- 树 ) ，871 

Bellman-Ford，671, 673 

binary heap ( 二 叉 堆 ) ，319 

binary search ( 二 分 查找 ) ，383 

BST (二 又 查 找 树 ) ，403-404, 412 
breadth-first search( 广度 优先 搜索 ) ，541 


SequentialSearchST, 375 brute substring search ( 暴力 子 字符 串 查 找 ) ，761 
SET, 489 complete binary tree( 完全 二 叉 查找 树 ) ，314 
She11，259 connected components ( 连通 分 量 ) ，546 
SortCompare，256 Cook-Levin theorem ( Cook-Levin 定理 ) ，918 
SparseVector, 503 critical path method ( 关键 路 径 法 ) ，666 
Stack，149 cut property ( 切 分 定理 ) ，606 
StaticSETofInts，99 DFS (深度 优先 搜索 ) ，531, 537, 570 

Stats, 125 Dijkstra’s algorithm ( Dijkstra 算法 ) ，652, 654 


Stopwatch, 175 
SuffixArray, 883 
SymbolGraph, 552 
ThreeSum, 173 
ThreeSumFast, 190 
TopM, 311 
Topological, 58]1 
Transaction, 340 
TransitiveClosure, 593 
TrieST, 737-741 
TST, 747 
TwoColor, 547 
TwoSumFast, 189 


flow conservation ( 流量 守恒 ) ，893 


Ford-Fulkerson ( Ford-Fulkerson 算法 ) ，900-901 


generic shortest-paths ( 通用 最 短路 径 ) ，651 


greedy MST algorithm ( 贪心 最 小 生成 树 算法 ) ，607 


heapsort ( 堆 排 序 ) ，323, 326 

Huffman algorithm ( 霍 夫 曼 算 法 ) ，833 
index priority queue ( 索引 优先 队列 ) ，321 
insertion sort ( 插入 排序 ) ，250, 252 

integer programming ( 整数 规划 ) ，917 
key-indexed counting ( 键 索引 计数 法 ) ，705 
Knuth-Morris-Pratt，769 


Kosaraju’s algorithm ( Kosaraju 算法 ) ，588, 590 


Kruskal’s algorithm ( Kruskal 算法 ) ，624, 625 


linear-probing hash table ( 线性 探测 散 列表 ) ，475 
linear programming ( 线性 规划 ) ，908 
longest paths in DAG ( 有 向 无 环 图 中 的 最 长 路 径 ) ，661 
longest repeated substring ( 最 长 重复 子 字符 串 ) ，885 
LSD string sort( 低位 优先 的 字符 串 排 序 ) ，706, 709 
maxflow-mincut theorem ( 最 大 流 - 最 小 切 分 定理 ) ， 
894 
maxflow reductions( 最 大 流 消减 ) ，906 
mergesort ( 合并 排序 ) ，272, 279, 282 
MSD string sort ( 高 位 优先 的 字符 串 排序 ) ，717,718 
negative cycles ( 负 权重 环 ) ，669 
parallel job Scheduling with relative deadlines ( 相对 最 后 
期 限 限制 下 的 并 行 任务 调度 问题 ) ，667 
particle collision 〈 粒子 的 相互 碰撞 ) ，865 
Prim'”s algorithm ( Prim 算法 ) ，616, 618, 623 
quick-find algorithm ( quick-find 算法 ) ，223 
quicksort ( 快速 排序 ) ，293-295 
quick-union algorithm ( quick-union 算法 ) ，226 
red-black BST ( 红 黑 二 又 查找 树 ) ，444, 447 
regular expression ( 正则 表达 式 ) ，799, 804 
R-way trie ( R- 向 单词 查找 树 ) ，742, 743, 744 
selection sort ( 选择 排序 ) ，248 
separate-chaining ( 拉链 法 ) ，466, 475 
sequential search ( 顺序 查找 ) ，376 
shortest paths in DAG ( 有 向 无 环 图 中 的 最 短路 径 ) ， 
658 
shortest-paths optimality ( 最 短路 径 最 优 性 条 件 ) ，650 
shortest paths reductions ( 最 短路 径 归 约 ) ，905 
sorting lower bound ( 排序 下 界 ) ，280, 300 
sorting reductions ( 排序 问题 ) ，903 
suffix array ( 后 缀 数组 ) ，882 
ternary search trie ( 三 向 单词 查找 树 ) ，749, 751 
topological order ( 拓 补 排序 ) ，578, 582 
universal compression ( 通用 压缩 ) ，816 
weighted quick-union ( 加 权 quick-union 算法 ) ，229 
protected modifier ( protected 修饰 符 ) ，110 
Protein folding ( 蛋白 质 折 释 ) ，920 
public access modifier ( pub1lic 访问 修饰 符 ) ，110 
Pushdown stack ( 下 压 栈 ) ，127 
See also Stack data type ( 男 见 Stack data type ) 
Push operation ( 入 栈 操作 ) ，127 


Q 
Quadratic running time ( 平方 级 别 的 运行 时 间 ) ，186 
Quantum compnuter ( 量子 计算 机 ) ，911 
Queue data type (Queue 数据 类 型 ) 
analysis of ( 分 析 ) ，198 


API, 126 

circular linked list ( 环形 链表 ) ，165 

linked-list ( 链表 ) ，150-151 

resizing-array( 可 调整 大 小 的 数组 ) ，140 
Quick-find algorithm ( Quick-find 算法 ) ，222-223 
Quicksort( 快速 排序 ) ，288-307 

2-way partitioning ( 二 向 切 分 ) ，290 

3-way partitioning ( 三 向 切 分 ) ，298-301 

3-way string ( 三 向 字符 串 ) ，719 

analysis of ( 分 析 ) ，293-295 

and binary search trees ( 与 二 又 查找 树 ) ，403 

duplicate keys( 重复 元 素 ) ，292 

median-of-3( 三 取样 切 分 ) ，296, 305 

median-of-5 ( 五 取样 切 分 ) ，305 

nonrecursive ( 非 递归 ) ，306 

random shuffle( 随机 打 乱 ) ，292 
Quick-union (Quick-union 算法 ) ，224-227 

path compression (路径 压缩 Quick-union 算法 ) ，231 

weighted (加权 Quick-union 算法 ) ，227-230 


Rn 


Rabin-Karp algorithm ( Rabin-Karp 算法 ) ，774-778 
Rabin, M. O., 759 
Radius of a graph ( 图 的 半径 ) ，559 
Radix ( 基数 ) ，700 
Radix sorting. See String sorting ( 基数 排序 法 ， 见 String 
sorting ) 
Random bag data type ( 随机 背包 数据 类 型 ) ，167 
Randomized algorithm ( 随机 化 算法 ) ，198 
Las Vegas ( 拉 斯 维 佳 斯 ) ，778 
Monte Carlo ( 蒙特 卡 洛 ) ，776 
quicksort ( 快速 排序 ) ，290, 307 
Rabin-Karp algorithm ( Rabin-Karp 算法 ) ，776 
3-way string quicksort ( 三 向 字符 串 快 速 排序 ) ，722 
Random number ( 随机 数 ) ，30-32 
Random queue data type ( 随机 队列 数据 类 型 ) ，168 
Random string model ( 随机 字符 串 模 型 ) ，716-717 
Range query ( 范围 查找 ) 
binary search tree (二 又 查找 树 ) ，412 
ordered symbol table ( 有 序 符 号 表 ) ，368 
Rank (排名 ) 
binary search ( 二 分 查找 ) ，25, 378-381 
binary search tree ( 二 又 查找 树 ) ，408, 415 
ordered symbol table ( 有 序 符 号 表 ) ，367 
suffix array ( 后 级 数组 ) ，879 
Reachability ( 可 达 性 ) ，570-572, 590 
Reachable vertex( 可 达 顶 点 ) ，567 
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Recurrence relation 


binary search ( 二 分 查找 ) ，383 
mergesort ( 合并 排序 ) ，272 
quicksort ( 快速 排序 ) ，293 


Recursion (递归 ) ，25 


See also Base case ( 另 见 Base case ) ; 
See also Recursion ( 男 见 Recursion ) 
binary search ( 二 分 查找 ) ，25, 380 
binary search tree，401 
depth-first search ( 深度 优先 搜索 ) ，531 
Euclid’s algorithm ( 欧 几 里 德 算法 ) ，4 
Fibonacci numbers ( 斐 波 纳 契 数 ) ，57 
mergesort ( 合并 排序 ) ，272 
quicksort ( 快速 排序 ) ，289 


Red-black BST ( 红 黑 二 又 查找 树 ) ，432-447 


and 2-3 search tree ( 与 2-3 查找 树 ) ，432 
analysis of ( 分 析 红 黑 BST ) ，444-447 
color flip( 颜色 转换 ) ，436 

color representation ( 颜色 表示 ) ，433 
defined ( 定义 ) ，432 

delete the maximum ( 删除 最 大 元 素 ) ，454 
delete the minimum ( 删除 最 小 元 素 ) ，453 
deletion ( 删除 元 素 ) ，441-443, 455 
implementation ( 实现 ) ，439 

insertion ( 搬入 ) ，437-439 

left-leaning ( 左 链 接 ) ，432 

perfect black balance ( 完美 黑色 平衡 ) ，432 
rotation ( 旋转 ) ，433-434 

search ( 查找 ) ，432 


Redirection 〈 重 定向 ) ，40 
Reduction ( 问题 归 约 ) ，903-909 


defined ( 定义 ) ，903 

polynomial-time ( 多 项 式 时 间 ) ，916 
linear programming ( 线性 归 划 ) ，907-909 
maxflow ( 最 大 流量 ) ，905-907 

priority queue ( 优先 队列 ) ，345 
shortest-paths ( 最 短路 径 ) ，904-905 
sorting (排序 ) ，344-347, 903-904 


态 自动 机 ) ，794-799 
or operation ( 或 操作 ) ，789 
parentheses ( 括号 ) ，789 
\\s+, 82 
shortcuts ( 缩 略 写 法 ) ，791 
simulating an NFA (NFA 的 模拟 ) ，797-799 
Rehashing ( 重新 散 列 ) ，474 
Relation ( 关系 ) 
antisymmetric ( 反对 称 性 ) ，247 
equivalence ( 等 价 性 ) ，102, 216, 584 
reflexive ( 自 反 性 ) ，102, 216, 247, 584 
symmetric ( 对 称 性 ) ，102, 216, 584 
total order ( 完整 的 比较 序列 ) ，247 
transitive ( 传递 性 ) ，102, 216, 247, 584 
Residual network ( 剩余 网 络 ) ，895-897 
Resizing array ( 可 调整 大 小 的 数组 ) ，136-137 
binary heap (二 又 堆 ) ，320 
hash table ( 散 列 表 ) ，474-475 
queue( 队列 ) ，140 
stack( 栈 ) ，136 
Return value(〈 返 回 值 ) ，22 
Reverese postorder traversal ( 逆 后 序 遍历 ) ，578 
Reverse ( 反 向 ， 逆 向 ) 
alinked list ( 将 链表 反 转 ) ，165-166 
an array ( 颠倒 数组 元 素 的 顺序 ) ，21 
array iterator ( 数组 反 向 迭代 器 ) ，139 
with a stack ( 将 栈 中 的 元 素 逆序 排列 ) ，127 
Reverse-delete algorithm ( 逆向 删除 算法 ) ，633 
Reverse graph( 反 转 图 ) ，586 
Reverse postorder ( 逆 后 序 ) ，578 
Ring buffer data type( 环形 缓冲 区 数据 类 型 ) ，169 
RLE. See Run-length encoding 
Robson, J., 412 
Rooted tree (一 棵 树 ) ，640 


Rotation in a BST( BST 中 的 旋转 操作 ) ，433-434, 452 


Run-length encoding ( 游程 编码 ) ，822-825 
Running time ( 运行 时 间 ) ，172-173 
analysis of ( 分 析 运 行 时 间 ) ，176 


Reference (引用 ) ，67 

Reference type (引用 类 型 ) ，64 

Reflexive relation ( 自 反 关系 ) ，102, 216, 247, 584 

Regular expression ( 正则 表达 式 ) ，82, 788 
building an NFA ( 构造 NFA ) ，800-804 
closure operation ( 闭 包 操作 ) ，789 
concatenation operation ( 连接 操作 ) ，789 
defined ( 定义 ) ，790 
epsilon-transition (e- 转换 ) ，795 
match transition ( 匹配 转换 ) ，795 
nondeterministic finite-state automaton ( 非 确定 有 限 状 


constant 〈 常数 级 别 的 运行 时 间 ) ，186 
cubic( 立方 级 别 的 运行 时 间 ) ，186 
doubling ratio ( 倍率 ) ，192 

exponential ( 指数 级 别 的 运行 时 间 ) ，186 
inner loop( 内 循环 ) ，180 

linear ( 线性 级 别 的 运行 时 间 ) ，186 
logarithmic ( 对 数 级 别 的 运行 时 间 ) ，186 
measuring ( 测量 准确 的 运行 时 间 ) ，174 
order of growth (〈 运行 时 间 的 增长 数量 级 ) ，179 
quadratic (立方 级 别 的 运行 时 间 ) ，186 
tilde approximation ( 近似 ) ，178-179 


Run-time error. See Error; See also Exception ( 运行 时 间 错 
误 ， 见 Error， 另 见 Exception ) 

R-way trie ( R 向 单词 查找 树 ) ，730-744 
Alphabet (字母 表 ) ，741 
analysis of ( 分 析 ) ，742-743 
collecting keys ( 查找 所 有 键 ) ，738 
deletion( 删除) ，740 
insertion (插入 ) ，734 
longest prefix ( 最 长 前 级 ) ，739 
memory usage of ( 内 存 使 用 空间 ) ，744 
one-way branching ( 单 向 分 支 ) ，744-745， 
representation ( 表示 ) ，734 
search (查找) ，732-733 
wildcard match( 通配符 匹配 ) ，739 


S 


Safe pointer ( 安全 指针 ) ，112 

Sample mean (采样 期 望 值 ) ，30 

Samplesort ( 取样 排序 ) ，306 

Sample standard deviation ( 采样 标准 差 ) ，30 

Sample variance ( 采样 ) ，30 

Scheduling ( 调度 ) 
critical-path method ( 关键 路 径 法 ) ，664-666 
load-balancing problem ( 负载 均衡 问题 ) ，349 
LPT first ( 最 大 优先 ) ，349 
parallel precedence-constrained ( 优先 级 限制 下 的 并 

行 ) ，663-667 

precedence constraint ( 优先 级 限制 ) ，574-575 
relative deadlines ( 相对 最 后 期 限 ) ，666 
SPT first ( 最 小 优先 ) ，349 

Scientific method ( 科学 方法 ) ，172 

Scope of a variable( 变量 作用 域 ) ，14, 87 

Search hit ( 查找 命中 ) ，376 

Searching ( 查找 ) ，360-513. See also Symbol table ( 另 
见 Symbol table ) 

Search miss ( 查找 未 命中 ) ，376 

Search problem ( 搜索 问题 ) ，912 

Sedgewick, R.，298 

Selection( 选择) ，345 
binary search tree ( 二 叉 查 找 树 ) ，406 
ordered symbol table ( 有 序 符号 表 ) ，367 
suffix array ( 后 缀 数组 ) ，879 

Selection client ( 选择 用 例 ) ，249 

Selection sort ( 选择 排序 ) ，248-249 

Selfloop ( 自 环 ) ，518, 566, 612, 640 

Separate-chaining ( 拉链 法 ) ，464-468 

Sequential allocation ( 顺序 存储 ) ，156 


Sequential search ( 顺序 查找 ) ，374-377 
Set data type ( Set 数据 类 型 ) ，489-491 
Shannon entropy ( 香农 信息 量 ) ，300-301 
Shellsort ( 希 尔 排 序 ) ，258-262 
Shortest ancestral path ( 最 短 先 导 路 径 ) ，598 
Shortest augmenting path ( 最 短 增 广 路 径 ) ，897 
Shortest path ( 最 短路 径 ) ，638 
Shortest paths problem ( 最 短路 径 问题 ) ，638-693 
all-pairs ( 顶点 对 ) ，656 
arbitrage detection ( 套 汇 检测 ) ，679-681 
Bellman-Ford ( Bellman-Ford 算法 ) ，668-678 
bitonic ( 双 调 ) ，689 
bottleneck ( 瓶颈 ) ，690 
certification ( 验证 ) ，651 
critical edge ( 关键 边 ) ，690 
Dijkstra's algorithm ( Dijkstra 算法 ) ，652_657 
edge relaxation ( 边 放 松 ) ，646-647 
edge-weighted DAG ( 加 权 有 向 无 环 图 ) ，658-667 
generic algorithm ( 通用 算法 ) ，651 
ineligible edge ( 无效 边 ) ，646 
in Euclidean graphs ( 在 欧 拉 图 中 ) ，656 
monotonic ( 单调 ) ，689 
negative cycle ( 负 权 重 环 ) ，669 
Negative cycle detection ( 负 权 重 环 检 测 ) ，670 
negative weights ( 负 权重 ) ，668-681 
optimality conditions ( 最 优 条 件 ) ，650 
parent-link ( 父 结 点 的 链接 ) ，640 
reduction ( 问题 归 约 ) ，904-905 
shortest-paths tree ( 最 短路 径 树 ) ，640 
single-source ( 单 点 ) ，639, 654 
Source-sink ( 给 定 两 点 ) ，656 
undirected graph ( 无 向 图 ) ，654 
Vertex relaxation ( 顶点 放松 ) ，648 
Shortest-processing-time-first rule ( 最 小 优先 法 则 ) ， 
349, 355 
short primitive data type ( short 原始 数据 类 型 ) ，13 
Shuffling ( 打 乱 ) 
alinked list ( 打 乱 链表 ) ，286 
an array ( 打 乱 数组 ) ，32 
quicksort ( 打 乱 快速 排序 结果 ) ，292 
Side effect ( 副作用 ) ，22, 108 
Signature ( 签名 ) 
instance method ( 实例 方法 签名 ) ，86 
static method ( 静态 方法 签名 ) ，22 
Simple digraph ( 简单 有 向 图 ) ，567 
Simple graph ( 简单 图 ) ，518 
Simplex algorithm ( 单纯 形 法 ) ，909 
Single-source problems ( 单 点 问题 ) 
connectivity ( 连通 性 ) ，556 
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directed paths ( 有 向 路 径 ) ，573 
longest paths in DAG ( 有 向 无 环 图 中 的 最 长 路 径 ) ， 
661 
paths (路径) ，534 
reachability ( 可 达 性 ) ，570 
shortest directed paths ( 最 短 有 向 路 径 ) ，573 
shortest paths in undirected graphs ( 无 向 图 中 的 最 短路 
径 ) ，654, 904 
shortest paths ( 最 短路 和 从 ) ，538, 639 
Social network ( 社交 网 络 ) ，517 
Software cache ( 缓存) ，391, 451, 462 
Sollin, M., 628 
Sorting ( 排序 ) ，242-359 
See also String sorting ( 另 见 字符 串 排 序 ) 
3-way quicksort ( 三 向 快速 排序 ) ，298-301 
binary search tree ( 二 叉 查 找 树 ) ，412 
certification ( 认证 ) ，246, 265 
Comparable, 246-247 
compare-based ( 基于 比较 的 排序 算法 ) ，279 
complexity of ( 排序 复杂 性 ) ，279-282 
cost model ( 排序 的 成 本 模型 ) ，246 
entropy-optimal ( 平均 信息 量 最 优 的 排序 ) ，296-301 
extra memory ( 额外 的 内 存 使 用 ) ，246 
heapsort ( 堆 排 序 ) ，323-327 
indirect ( 间接 排序 ) ，286 
in-place ( 原 地 排序 ) ，246 
insertion sort (插入 排序 ) ，250-252 
inversion( 反 向 排序 ) ，252 
lower bound ( 下 界 ) ，279-282, 306 
mergesort ( 合并 排序 ) ，270-288 
partially-sorted array ( 部 分 有 序 的 数组 ) ，252 
pointer ( 指针 ) ，338 
primitive types ( 原始 数据 类 型 ) ，343 
quicksort ( 快速 排序 ) ，288-307 
reduction ( 归 约 问题 ) ，903-904 
reductions ( 归 约 ) ，344-347 
selection sort ( 选择 排序 ) ，248-250 
shellsort ( 希 尔 排序 ) ，258-262 
stability ( 稳定 性 ) ，341 
suffix array ( 后 缀 数组 ) ，875-885 
system sort ( 系统 排序 ) ，343 
Source-sink shortest paths ( 给 定 两 点 的 最 短路 径 ) ，656 
Spanning forest ( 生成 森林 ) ，520 
Spanning tree ( 生成 树 ) ，520, 604 
Sparse graph ( 稀 玖 图 ) ，520 
Sparse matrix( 稀 玖 矩阵 ) ，510 
Sparse vector ( 黎 疏 向 量 ) ，502-505 
Specification problem ( 说 明 书 问题 ) ，97 
SPT. See Shortest paths tree; 


See also Shortest-processing-time-first rule ( 最 短路 
径 树 ， 见 Shortest paths tree， 另 见 Shortest- 
processing-time-first rul ) 

st-cut ( st- 切 分 ) ，892 
st-flow ( st- 流量 配置 ) ，888 
st-flow network ( st- 流量 网 络 ) ，888 
Stability (稳定 性 ) ，341, 355 
insertion sort ( 插入 排序 ) ，341 
key-indexed counting ( 键 索引 计数 法 ) ，705 
LSD string sort ( 低位 优先 的 字符 串 排序 ) ，706 
mergesort ( 合并 排序 ) ，341 
priority queue ( 优先 队列 ) ，356 
Stack data type ( 栈 数据 类 型 ) ，127 
analysis of ( 分 析 栈 ) ，198, 199 
array implementation ( 实现 保存 在 栈 中 的 数组 ) ，132 
fxed-capacity ( 定 容 栈 ) ，132-133 
generic ( 泛 型 ) ，134 
iteration ( 迭代 ) ，138-140 
linked-list (链表 ) ，147-149 
resizing array ( 可 调整 大 小 的 数组 ) ，136 
Standard deviation ( 标准 差 ) ，30 
Standard drawing ( 标准 图 像 ) ，36, 42-45 
Standard input ( 标准 输入 ) ，36, 39 
Standard libraries ( 标准 库 ) ，30 
Draw，82--83 
In，41, 82—83 
Out，41, 82-83 
StdDraw，43 
StdIn，39 
StdOut, 37 
StdRandom，30 
StdStats，30 
Stopwatch，174-175 
Standard output ( 标准 输出 ) ，36, 37-38 
Static method ( 静态 方法 ) ，22-25 
argument ( 参数 ) ，22 
defining a (定义 静态 方法 ) ，22 
invoking a ( 调用 静态 方法 ) ，22 
overloaded ( 重 载 静态 方法 ) ，24 
pass by value ( 按 值 传递 ) ，24 
recursive ( 递归) ，25 
return statement ( 返回 语句 ) ，24 
return value (返回 值 ) ，22 
side effect ( 副作用 ) ，22, 24 
Signature ( 签名 ) ，22 
Static variable ( 静态 变量 ) ，113 
Statistics ( 统计 学 ) 
chi-square ( 卡 方 检验 ) ，483 
median ( 中 位 数 ) ，345 


minimum and maximum ( 最 小 值 和 最 大 值 ) ，30 
order (顺序 ) ，345 
sample mean ( 采样 期 望 值 ) ，30, 125 
sample standard deviation ( 采样 标准 差 ) ，30 
sample variance ( 采样 方差 ) ，30, 125 
StdDraw library, 43 
StdIn library, 39 
StdOut library, 37 
StdRandom library, 30 
StdStats library, 30 
Steque data type (Steque 数据 类 型 ) ，167, 212 
Stirling's approximation ( 斯 特 灵 公式 ) ，185 
Stopwatch data type ( Stopwatch 数据 类 型 ) ，174-175 
String data type ( 字符 串 数据 类 型 ) ，34, 80-81 
API，80 
characters (字符) ，696 
charAt() method ( charAt() 方法 ) ，696 
concatenation ( 字符 串 的 连接 ) ，34, 697 
conversion( 字符 串 类 型 转换 ) ，102 
immutability ( 不 可 变性 ) ，696 
indexing ( 索引 ) ，696 
index0f() method ( index0f() 方法 ) ，779 
length ( 字符 串 长 度 ) ，696 
length() method ( length() 方法 ) ，696 
literal ( 字面 量 ) ，34 
memory usage of ( 内 存 使 用 ) ，202 
+ operator (+ 运算 符 ) ，80, 697 
substring extraction ( 提取 子 字符 串 ) ，696 
substring() method ( substring() 方法 ) ，696 
String processing ( 字符 串 处 理 ) ，80-81, 694-851 
data compression ( 数据 压缩 ) ，810-851 
regular expression ( 正则 表达 式 ) ，788 
sorting ( 排序 ) ，702-729 
substring search 〈 子 字符 串 查找 ) ，758-785 
suffix array ( 后 缀 数组 ) ，875-885 
tries ( 单词 查找 树 ) ，730-757 
String search. See Substring search; See also Trie ( 字符 串 
查找 ， 见 Substring search， 另 见 Trie ) 
String sorting ( 字符 串 排序 ) ，702-729 
3-way quicksort ( 三 向 快速 排序 ) ，719-723 
key-indexed counting ( 键 索 引 计数 法 ) ，703 
LSD string sort( 低位 优先 的 字符 串 排 序 ) ，706-709 
MSD string sort( 高 位 优先 的 字符 串 排序 ) ，710-718 
Strong component ( 强 连通 分 量 ) ，584 
Strong connectivity ( 强 连通 性 ) ，584-591 
Strongly connected component. See Strong component ( 强 
连通 的 分 量 ， 见 Strong component ) 
Strongly connected relation ( 强 连通 的 关系 ) ，584 
Strongly typed language ( 强 类 型 语言 ) ，14 
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Subclass( 子 类 ) ，101 
Subgraph ( 子 图 ) ，519 
Sublinear running time ( 次 线性 运行 时 间 ) ，716, 779 
Substring extraction ( 子 字 符 串 提取 ) 
memory usage of ( 内 存 使 用 ) ，202-204 
substring() method ( substring() 方法 ) ，696 
Substring search ( 子 字符 串 查找 ) ，758-785 
Boyer-Moore ( Boyer-Moore 算法 ) ，770-773 
brute-force ( 暴力 查找 ) ，760-761 
index0f() method ( index0f() 方法 ) ，779 
Knuth-Morris-Pratt，762-769 
Rabin-Karp, 774-778 
Subtyping ( 子 类 型 ) ，100 
Suffix array ( 后 级 数组 ) ，875-885 
Suffix array data type( 后 级 数组 数据 类 型 ) ，879 
Suffix-free code ( 后 级 码 ) ，847 
Superclass( 父 类 ) ，101 
Symbol digraph ( 符号 有 向 图 ) ，581 
Symbol graph ( 符号 图 ) ，548-555 
Symbol table ( 符号 表 ) ，360-513 
2-3 search tree ( 2-3 查找 树 ) ，424-431 
API，363, 366 
associative array ( 关联 数组 ) ，363 
balanced search tree ( 平衡 查找 树 ) ，424-457 
binary search ( 二 分 查找 ) ，378-384 
binary search tree ( 二 又 查 找 树 ) ，396-423 
B-tree (B- 树 ) ，866-874 
cost model ( 成 本 模型 ) ，369 
defined ( 符号 表 的 定义 ) ，362 
duplicate key policy ( 重复 元 素 ) ，363 
floor and ceiling ( 向 上 取 整 和 向 下 取 整 ) ，367 
hash table ( 散 列 表 ) ，458-485 
insertion (插入 ) ，362 
key equality ( 等 值 键 ) ，365 
lazy deletion ( 延 时 删除 ) ，364 
linear-probing( 线性 探测 ) ，469-474 
minimum and maximum ( 最 小 元 素 和 最 大 元 素 ) ，367 
null value (nu11 值 ) ，364 
ordered ( 有 序 符号 表 ) ，366-369 
ordered array ( 有 序数 组 ) ，378 
range query ( 范围 查找 ) ，368 
rank and selection ( 排名 和 选择 ) ，367 
red-black BST ( 红 黑 二 叉 查 找 树 ) ，432-447 
R-way trie( R 向 单词 查找 树 ) ，732-745 
search ( 查找 ) ，362 
separate-chaining ( 拉链 法 ) ，464-468 
sequential search ( 顺序 查找 ) ，374 
string keys ( 字符 串 键 ) ，730-757 
ternary search trie ( 三 向 单词 查找 树 ) ，746-751 
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trie ( 单词 查找 树 ) ，730-757 

unordered linked list ( 无 序 链表 ) ，374 
Symmetric order ( 树 的 对 称 性 ) ，396 
Symmetric relation ( 对 称 关 系 ) ，102, 216, 584 
Szpankowski, W., 882 


T 


Tail vertex ( 顶点 的 尾 ) ，566 
Tale of Two Cities ( 双城记 ) ，371 
Tandem repeat ( 串联 重复 查找 ) ，784 
Tarjan, R. E., 590, 628 
Terminal window ( 终端 窗口 ) ，10, 36 
Ternary search trie ( 三 向 单词 查找 树 ) ，746-751 
alphabet ( 字母 表 ) ，750 
analysis of ( 分 析 ) ，749 
collecting keys ( 查找 所 有 键 ) ，750 
deletion( 删除) ，750 
insertion ( 搬入 ) ，746 
one-way branching ( 单 向 分 支 ) ，751, 755 
prefix match (〈 匹配 前 缀 ) ，750 
search ( 查找 ) ，746 
wildcard match ( 通配符 匹配 ) ，750 
Theseus ( 不 修 斯 ) ，530 
this reference ( this 5| 用 ) ，87 
Threading ( 线性 符号 表 ) ，420 
Tilde notation ( 近似 ) ，178, 206 
Time-driven simulation ( 时 间 驱 动 模拟 ) ，856 
Timing a program ( 为 应 用 程序 计时 ) ，174-175 
Top-down 2-3-4 tree ( 自 顶 向 下 的 2-3-4 树 ) ，441 
Top-down mergesort ( 自 顶 向 下 的 合并 排序 ) ，272 
Topological sort( 拓 补 排序 ) ，574-583 
depth-first search( 深度 优先 搜索 ) ，578 
queue-based algorithm ( 基于 队列 的 算法 ) ，599 
toString() method ( toString() 方法 ) ，66, 102 
Total order ( 完整 的 比较 序列 ) ，247 
Transaction data type ( 事务 数据 类 型 ) ，78-79 
compare(), 340 
compareTo(), 266,337 
hashCode(), 462 
Transitive closure ( 传递 闭 包 ) ，592 
Transitive relation ( 传递 关系 ) ，102, 216, 247, 584 
Transpose a matrix ( 转 置 矩 阵 ) ，56 
Tree ( 树 ) 
2-3 search tree ( 2-3 查找 树 ) 
See 2-3 search tree ( 见 2-3 search tree ) 
binary. See Binary tree ( 二 进 制 ， 见 Binary tree ) 
binary search tree ( 二 叉 查找 树 ) 


See Binary search tree ( 见 Binary search tree ) 
balanced search tree. See Balanced search tree (平衡 查 
找 树 ， 见 Balanced search tree ) 
binomial ( 二 项 树 ) ，237 
depth of a node( 树 中 的 节点 深度 ) ，226 
height of ( 树 的 高 度 ) ，226 
inorder traversal ( 中 序 遍 历 ) ，412 
min spanning tree. See Minimum spanning tree ( 最 小 生 
成 树 ， 见 Minimum spanning tree ) 
parent-link( 父 结 点 的 链接 ) ，535, 539 
preorder traversal ( 前 序 遍历 ) ，834 
rooted ( 根 结 点 ) ，640 
size( 树 的 大 小 ) ，226 
spanning tree.See Spanning tree ( 生成 树 ， 见 Spanning 
tree ) 
undirected graph 〈 无 向 图 ) ，520 
union-find ( union-find 算法 ) ，224-226 
Tremaux exploration ( Tremaux 搜索 ) ，530 
Triangular sum ( 等 差 数 列 之 和 ) ，185 
Trie ( 单词 查找 树 ) ，730-757 
See also R-way trie; 
See also Ternary search trie ( 见 R-way trie， 男 见 
Ternary search trie ) 
collecting keys( 查找 所 有 键 ) ，731 
Lempel-Ziv-Welch, 840 
longest prefix match ( 匹配 最 长 前 级 ) ，731, 842 
one-way branching ( 单 向 分 支 ) ，744-745, 751, 755 
prefix-free code ( 前 级 代码 ) ，827 
preorder traversal ( 前 序 遍历 ) ，834 
reading and writing ( 读 和 写 ) ，834-835 
wildcard match ( 通配符 匹配 ) ，731 
Tufte plot ( Tufte 图 ) ，456 
Tukey ninther 306 
Turing, A., 910 
Turing machine ( 图 灵机 ) ，910 
Church-Turing thesis( 丘 奇 - 图 灵 论 题 ) ，910 
computability ( 可 计算 性 ) ，910 
nondeterministic (〈 非 确定 性 的 ) ，914 
universality ( 普遍 性 ) ，910 
Type conversion ( 类 型 转换 ) ，13 
Type erasure ( 类 型 擦 除 ) ，158 
Type parameter ( 类 型 参数 ) ，122, 134 


U 


Undecidability ( 不 可 判定 性 ) ，97, 817 
Undirected graph (无 向 图 ) 
acyclic (无 环 ) ，520 


adjacency-lists ( 邻接 表 ) ，524 
adjacency-matrix ( 邻接 矩阵 ) ，524 
adjacency-sets ( 邻接 集 ) ，527 
adjacent vertex ( 邻接 顶点 ) ，519 
articulation point (关节 点 ) ，562 
biconnected ( 双向 连通 的 ) ，562 
bipartite ( 二 分 的 ) ，521, 546-547, 562 
breadth-first search ( 广度 优先 搜索 ) ，538-542 
bridge ( 桥 ) ，562 
center ( 中 点 ) ，559 
connected ( 连通 的 ) ，519 
connected component ( 连通 分 量 ) ，519 
connected to relation ( 连通 关系 ) ，519 
connectivity ( 连通 性 ) ，534, 543-546 
cycle ( 环 ) ，519 
cycle detection ( 环 检测 ) ，546-547 
defined ( 定义 ) ，518 
degree ( 度 ) ，519 
dense ( 稠密 ) ，520 
depth-first search ( 深度 优先 搜索 ) ，530-533 
diameter ( 直径 ) ，559 
edge( 边 ) ，518 
edge-connected ( 边 连通 的 ) ，562 
edge-weighted (加 权 ) 
See Edge-weighted graph ( 见 Edge-weighted graph ) 
Eulertour ( 欧 拉 回路 ) ，562 
forest ( 森林 ) ，520 
girth ( 周 长 ) ，559 
Hamilton tour (汉密尔顿 回路 ) ，562 
interval graph ( 区 间 图 ) ，564 
isomorphism ( 同 构 ) ，561 
multigraph ( 多 重 图 ) ，518 
odd cycle detection (长 度 为 奇数 的 环 检测 ) ，562 
parallel edge ( 平行 边 ) ，518 
path ( 路径) ，519 
radius ( 半径 ) ，559 
self-loop( 自 环 ) ，518 
simple (简单 ) ，518 
simple cycle ( 简单 环 ) ，519, 567 
simple path ( 简单 路 径 ) ，519 
single-source connectivity ( 单 点 连通 性 ) ，556 
Single-source paths ( 单 点 路 径 ) ，534 
single-source shortest paths ( 单 点 最 短路 径 ) ，538 
spanning forest ( 生成 森林 ) ，520 
spanning tree ( 生成 树 ) ，520 
sparse ( 稀疏 ) ，520 
subgraph ( 子 图 ) ，519 
tree ( 树 ) ，520 
two-colorability ( 两 种 颜色 着 色 ) ，546-547, 562 


vertex ( 顶点 ) ，518 
weighted ( 权重 ) 
See Edge-weighted graph ( 见 Edge-weighted graph ) 
Unicode ( Unicode 编码 ) ，696 
Uniform hashing ( 均匀 散 列 ) ，463 
Union-find ( union-find 算法 ) ，216-241 
depth-first search ( 深度 优先 搜索 ) ，546 
binomial tree ( 二叉树 ) ，237 
Boruvka’s algorithm ( Boruvka 算法 ) ，636 
dynamic connectivity ( 动态 连通 性 ) ，216 
forest-of-trees ( 森林 ) ，225 
Kruskal's algorithm ( Kruskal 算法 ) ，625 
parent-link ( 父 链接 ) ，225 
path compression ( 路 径 压 缩 ) ，231, 237 
quick-find ( quick-find 算法 ) ，222-223 
quick-union ( quick-union 算法 ) ，224_227 
weighted quick-find( 加 权 quick-find 算法 ) ，236 
weighted quick-union ( 加 权 quick-union 算法 ) ，227-231 
weighted quick-union by height ( 根据 高 度 加 权 的 
quick-union 算法 ) ，237 
weighted quick-union with path compression ( 使 用 路 径 
压缩 的 加 权 quick-union 算法 ) ，237 
Uniquely decodable code ( 解码 方式 唯一 的 编码 ) ，826 
Unit testing ( 单元 测试 ) ，26 
Universal data compression ( 通用 数据 压缩 ) ，816 
Universality ( 通用 性 ) ，910 
Upper bound ( 上 界 ) ，206, 207, 281 


V 


Value type parameter ( 值 类 型 参数 ) 
symbol table ( 符号 表 ) ，361 
trie ( 单词 查找 树 ) ，730 
Variable (变量 ) ，10 
Variable-length code ( 变 长 编码 ) ，826 
Variance ( 共 变 ) ，30 
Vector data type ( 向 量 数据 类 型 ) ，106 
Vertex ( 顶点 ) 
adjacent ( 邻接) ，519 
connected to relation ( 连通 关系 ) ，519 
degree of ( 度 ) ，519 
eccentricity ( 离心 率 ) ，559 
head and tail ( 头 和 尾 ) ，566 
indegree and outdegree ( 人 度 和 出 度 ) ，566 
Teachable ( 可 达 ) ，567 
source (点 ) ，528 


Vertex relaxation ( 顶点 放松 ) ，648 
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Virtual terminal ( 虚拟 终端 ) ，10 Weiner, P，884 
Vyssotsky’s algorithm ( Vyssotsky 算法 ) ，633 Welch, T., 839 
while loop (while 循 环 ) ，15 
Whitelist filter ( 白 名 单 过 滤器 ) ，8, 48-49, 99, 491 


WwW Wide interface ( 宽 接 口 ) ，160, 557 
Wildcard character ( 通配符 ) ，791 
Web search ( 网 络 搜索 ) ，496 Wildcard match ( 通配符 匹配 ) ，750 
Weighted digraph. Worst-case guarantee ( 对 最 坏 情况 下 的 性 能 保证 ) ，197 
See Edge-weighted digraph ( 加 权 有 向 图 ， 见 Edge- Wrapper type ( 封装 类 型 ) ，102, 122 
weighted digraph ) 
Weighted edge (加 权 边 ) ，604, 638 
Weighted external path length ( 加 权 外 部 路 径 长 度 ) ，832 < 
Weighted graph. See Edge-weighted graph ( 加 权 图 ， 见 
Edge-weighted graph ) Ziv, J.，839 
Weighted quick-union (加 权 quick-union 算法 ) ，227-231 Zero-based indexing ( 起 始 索引 是 0) ，53 


Weighted quick-union with path compression ( 使 用 路 径 压 ”Zipfslaw (Zipf 法 则 ) ，393 
缩 的 加 权 quick-union 算法 ) ，237 


